数据可视化的重要性与分析步骤

数据的可视化展示不仅使信息更易于理解,还有助于识别数据中的异常值,并且能够更直观地传达数据的初步洞察。多种类型的可视化图表能够帮助以最适合的格式展示数据,而不仅仅是使用行和列。此外,可视化还有助于理解数据随时间的分布情况。

可视化的前提条件

要进行有效的数据可视化,需要具备一些基本的Power BI知识,包括如何导入数据集、绘制图表以及创建计算列。

使用Power BI创建可视化

数据集名称:学生表现

数据集URL:https://www.kaggle.com/spscientist/students-performance-in-exams

下载上述URL的数据集后,在Power BI中打开并导入数据集。假设没有提供具体的问题陈述,基于数据集中的列,可以推断需要研究可能影响学生分数的各种因素。

没有提供任何候选人的详细信息,而是提供了具有特定特征(如性别、种族/民族、父母教育水平、午餐、考试准备课程、数学成绩、阅读成绩、写作成绩)的候选人的分数。

为了初步理解数据和可用的数据,首先绘制一个包含最高分、最低分和平均分的矩阵。在进行任何可视化之前,了解希望从可视化中理解的内容是有帮助的。由于希望理解各种因素对分数的影响,将比较每个特征与总分。

添加总分属性

创建新列并添加以下表达式:

TotalScore = StudentsPerformance[math score] + StudentsPerformance[reading score] + StudentsPerformance[writing score]

有3种不同的分数需要考虑。因此,需要检查每个特征对所有3种分数的影响,以及总体上(即总分)的影响。在这里,假设学生的分数取决于其他因素,因此学生的分数将在Y轴(因变量)上,所有其他因素将在X轴(自变量)上。

因此,将创建的不同可视化/图表将包括:

  • 性别与分数
  • 种族/民族与分数
  • 父母教育水平与分数
  • 午餐与分数
  • 考试准备课程与分数

这5种类型的可视化将用于初步理解数据。在此之后,将比较所有因素对分数的影响。为了保持理解的简单性,将仅使用条形图和柱状图来表示这些数据。(将使用这些图表,因为数据是离散的,如果有连续数据——折线图将更合适)

1. 性别与分数:在这个可视化中,绘制了一个柱状图,显示了学生的平均分数与他们的性别之间的关系。从可视化中可以看出,女性的总平均分数高于男性。在写作分数和阅读分数上也观察到了类似的情况。而在数学分数上,男性的平均分数高于女性。

2. 种族/民族与分数:这个可视化包含条形图,因为有5个组要在数据中展示。在这种情况下,条形图更容易理解和比较。

3. 父母教育水平与分数:为了表示“父母教育水平”与“分数”之间的关系,使用柱状图来绘制所有4种分数情况,这些分数是与“父母教育水平”相关的。

4. 午餐与分数:在这个可视化中,对于所有4种分数类别,有“标准”午餐的学生获得了最高的平均分数。

5. 考试准备课程与分数:在这个可视化中,接受过“考试准备课程”的学生的平均分数高于没有接受过的学生。

完成这5种类型的可视化后,可以总结以下洞察:

  • 男性仅在数学类别中的平均分数更高,而女性在所有其他3个类别中的平均分数更高。
  • E组在所有类别中的平均分数最高,而A组的平均分数最低。
  • 父母教育水平为“硕士”的学生获得了最高的平均分数,而父母教育水平为“高中”的学生获得了最低的平均分数。
  • 有“标准”午餐计划的学生的平均分数最高。
  • 完成考试准备的学生的平均分数较高。

所有这些观察都是关于一个自变量(性别/种族/午餐/父母教育水平/考试准备)和一个因变量(分数)之间的关系。这是一个单变量分析。

因此,清楚地了解希望通过可视化实现的目标,可以轻松地创建有意义的仪表板并从中推断出洞察。在开始任何可视化之前,理解因变量至关重要。在这个例子中,所有属性中,公平地假设,所有的努力都将指向理解影响学生分数的因素。其他每个属性只是一个可能影响最终分数的贡献因素,即它是一个自变量。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485