在当今的数字化时代,数据科学和机器学习已经成为推动技术进步的关键力量。随着计算技术的发展,处理和分析数据的能力得到了极大的提升。机器学习算法需要大量的数据来训练模型,而迭代的特性使得模型能够随着新数据的输入而自适应和改进。这种学习过程类似于人类,能够从错误中自动学习并不断进步。尽管数据科学并非一个全新的领域,但它在近年来获得了新的动力。
如果是机器学习领域的从业者,那么“EDA”(探索性数据分析)这个词对来说一定不陌生。EDA是机器学习的一个子集,它使用多种技术来深入理解数据集,并通过图形化的方式执行大量的操作。在任何机器学习项目的生命周期中,EDA都是第一步。对数据集进行EDA,然后使用图表和图形计算数据的基本统计量。通常,会使用Python语言来编写机器学习的脚本,而Python有着大量的库可供执行探索性数据分析,如matplotlib、pyplot、bokeh、seaborn等。
然而,这些库中的许多基本功能可能记不住,而且在编写脚本时需要编写大量的代码,这会耗费大量的时间。为了减少这种时间消耗,Python社区一直在不断更新和改进。一组数据科学家开发了一个出色的库,可以大大减少在探索性数据分析中投入的时间。今天,将讨论这个名为DataPrep的Python库。
正如其名,DataPrep是一个数据准备库。它由SFU数据科学研究人员开发,旨在加速数据科学操作。DataPrep通过简化代码行数来简化EDA操作,这意味着不需要编写大量的代码,只需一两行代码即可执行EDA。这个库可以帮助完成两个主要任务:一是从常见的数据源收集数据,二是轻松执行探索性数据分析。需要使用dataprep.eda模块来执行EDA操作。如果不熟悉dataprep.eda,它是最快、最简单的EDA执行库,允许用几行代码就理解数据框架。
pip install dataprep
安装完这个库后,就可以开始使用DataPrep进行EDA操作了。
现在,以“葡萄酒质量”数据集为例进行探索性数据分析。可以从下载数据集。如果想使用另一个数据集进行EDA,也可以这样做。下载完数据集后,需要导入一个库来加载这个数据集。
from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("")
在这里,使用dataprep.datasets函数load_dataset来加载数据集,然后加载葡萄酒质量数据集,如输出图像所示。
要使用DataPrep创建可视化,之前导入了一个重要的函数create_report,它来自dataprep.eda模块。这个函数帮助用一行代码创建整个可视化。
create_report(df)
当执行这个命令时,会发现这个页面在输出中显示。在这个输出中,顶部有许多选项,可以通过这些选项观察各种类型的特征。
让检查它们中的每一个: