数据的可视化展示不仅使信息更易于理解,还有助于识别数据中的异常值,并且能够更直观地传达数据的初步洞察。多种类型的可视化图表能够帮助以最适合的格式展示数据,而不仅仅是使用行和列。此外,可视化还有助于理解数据随时间的分布情况。
要进行有效的数据可视化,需要具备一些基本的Power BI知识,包括如何导入数据集、绘制图表以及创建计算列。
数据集名称:学生表现
数据集URL:https://www.kaggle.com/spscientist/students-performance-in-exams
下载上述URL的数据集后,在Power BI中打开并导入数据集。假设没有提供具体的问题陈述,基于数据集中的列,可以推断需要研究可能影响学生分数的各种因素。
没有提供任何候选人的详细信息,而是提供了具有特定特征(如性别、种族/民族、父母教育水平、午餐、考试准备课程、数学成绩、阅读成绩、写作成绩)的候选人的分数。
为了初步理解数据和可用的数据,首先绘制一个包含最高分、最低分和平均分的矩阵。在进行任何可视化之前,了解希望从可视化中理解的内容是有帮助的。由于希望理解各种因素对分数的影响,将比较每个特征与总分。
创建新列并添加以下表达式:
TotalScore = StudentsPerformance[math score] + StudentsPerformance[reading score] + StudentsPerformance[writing score]
有3种不同的分数需要考虑。因此,需要检查每个特征对所有3种分数的影响,以及总体上(即总分)的影响。在这里,假设学生的分数取决于其他因素,因此学生的分数将在Y轴(因变量)上,所有其他因素将在X轴(自变量)上。
因此,将创建的不同可视化/图表将包括:
这5种类型的可视化将用于初步理解数据。在此之后,将比较所有因素对分数的影响。为了保持理解的简单性,将仅使用条形图和柱状图来表示这些数据。(将使用这些图表,因为数据是离散的,如果有连续数据——折线图将更合适)
1. 性别与分数:在这个可视化中,绘制了一个柱状图,显示了学生的平均分数与他们的性别之间的关系。从可视化中可以看出,女性的总平均分数高于男性。在写作分数和阅读分数上也观察到了类似的情况。而在数学分数上,男性的平均分数高于女性。
2. 种族/民族与分数:这个可视化包含条形图,因为有5个组要在数据中展示。在这种情况下,条形图更容易理解和比较。
3. 父母教育水平与分数:为了表示“父母教育水平”与“分数”之间的关系,使用柱状图来绘制所有4种分数情况,这些分数是与“父母教育水平”相关的。
4. 午餐与分数:在这个可视化中,对于所有4种分数类别,有“标准”午餐的学生获得了最高的平均分数。
5. 考试准备课程与分数:在这个可视化中,接受过“考试准备课程”的学生的平均分数高于没有接受过的学生。
完成这5种类型的可视化后,可以总结以下洞察:
所有这些观察都是关于一个自变量(性别/种族/午餐/父母教育水平/考试准备)和一个因变量(分数)之间的关系。这是一个单变量分析。
因此,清楚地了解希望通过可视化实现的目标,可以轻松地创建有意义的仪表板并从中推断出洞察。在开始任何可视化之前,理解因变量至关重要。在这个例子中,所有属性中,公平地假设,所有的努力都将指向理解影响学生分数的因素。其他每个属性只是一个可能影响最终分数的贡献因素,即它是一个自变量。