数据科学初探:使用Sweetviz 2.0进行探索性数据分析

数据科学的领域中,探索性数据分析EDA)是至关重要的第一步。并非所有数据模型都适用于所有类型的数据,因此在深入分析之前,彻底理解数据是至关重要的。例如,不能对分类数据应用数学运算,或者必须解决数据集中缺失值的问题。数据模型的准确性直接依赖于数据的质量。然而,在现实世界中,数据是从各种来源收集的,必须相应地处理以减少影响。

作为数据挖掘的初始步骤,EDA有助于在没有任何假设的情况下洞察数据。这有助于形成假设。EDA的基本要素包括数据总结、数据描述和推断以及数据可视化。在Python中进行EDA的传统方式涉及使用NumPy、Pandas、SciPy和Matplotlib等工具。然而,使用Sweetviz可以更快速地预览数据。

Sweetviz 2.0简介

Sweetviz 2.0是一个基于pandas的开源库,用于执行基本的EDA任务,几乎不需要任何麻烦,或者只需要两行代码。它还可以生成带有出色可视化的总结报告。

pip install sweetviz

或者在Notebook/Colab中使用以下命令:

!pip install sweetviz

让开始编写代码...(请随意使用这里的源代码)

为此,将使用学生表现数据集()。这是一个混合数据集,即包含数值和分类数据。数据集包含1000名学生的记录,总共有八个特征,包括:

  • 性别:分类
  • 种族/民族:分类
  • 父母教育水平:分类
  • 午餐:分类
  • 考试准备课程:分类
  • 数学成绩:数值
  • 阅读成绩:数值
  • 写作成绩:数值

将使用pandas来读取csv(逗号分隔值)文件。

Sweetviz有一个强大的函数叫做analyze(),它有助于快速分析数据。

report = sv.analyze(data)

生成报告:

report.show_html('eda_report.html')

砰!报告在一瞬间就准备好了。

show_html()函数生成的详细报告包括以下细节:如果show_html()函数没有提供任何参数,默认情况下,它会生成一个名为'SWEETVIZ_REPORT.html'的文件。

此外,还可以并排比较两个数据集。为了快速查看这一点,将数据集分成两半。

data1 = data[0:400] data2 = data[400:]

现在,让使用report_comp = sv.compare([data1,'DATA1'], [data2,'DATA2'])并排比较它们。

report_comp.show_html('Compare_Results.html') report_comp = sv.compare(data1, data2, 'math score') report_comp.show_html('Compare_Results.html')
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485