在数据科学的领域中,探索性数据分析(EDA)是至关重要的第一步。并非所有数据模型都适用于所有类型的数据,因此在深入分析之前,彻底理解数据是至关重要的。例如,不能对分类数据应用数学运算,或者必须解决数据集中缺失值的问题。数据模型的准确性直接依赖于数据的质量。然而,在现实世界中,数据是从各种来源收集的,必须相应地处理以减少影响。
作为数据挖掘的初始步骤,EDA有助于在没有任何假设的情况下洞察数据。这有助于形成假设。EDA的基本要素包括数据总结、数据描述和推断以及数据可视化。在Python中进行EDA的传统方式涉及使用NumPy、Pandas、SciPy和Matplotlib等工具。然而,使用Sweetviz可以更快速地预览数据。
Sweetviz 2.0是一个基于pandas的开源库,用于执行基本的EDA任务,几乎不需要任何麻烦,或者只需要两行代码。它还可以生成带有出色可视化的总结报告。
pip install sweetviz
或者在Notebook/Colab中使用以下命令:
!pip install sweetviz
让开始编写代码...(请随意使用这里的源代码)
为此,将使用学生表现数据集()。这是一个混合数据集,即包含数值和分类数据。数据集包含1000名学生的记录,总共有八个特征,包括:
将使用pandas来读取csv(逗号分隔值)文件。
Sweetviz有一个强大的函数叫做analyze()
,它有助于快速分析数据。
report = sv.analyze(data)
生成报告:
report.show_html('eda_report.html')
砰!报告在一瞬间就准备好了。
show_html()
函数生成的详细报告包括以下细节:如果show_html()
函数没有提供任何参数,默认情况下,它会生成一个名为'SWEETVIZ_REPORT.html'
的文件。
此外,还可以并排比较两个数据集。为了快速查看这一点,将数据集分成两半。
data1 = data[0:400]
data2 = data[400:]
现在,让使用report_comp = sv.compare([data1,'DATA1'], [data2,'DATA2'])
并排比较它们。
report_comp.show_html('Compare_Results.html')
report_comp = sv.compare(data1, data2, 'math score')
report_comp.show_html('Compare_Results.html')