探索性数据分析在数据科学流程中的重要性

在深入探讨烘焙蛋糕的过程中,会发现,正确混合多种原料和巧妙的发酵剂——泡打粉,可以决定蛋糕的成败。将烘焙蛋糕比作数据科学流程,而聪明的发酵剂(泡打粉)则相当于探索性数据分析(EDA)。在味蕾开始对蛋糕产生渴望之前,让先来理解一下什么是探索性数据分析。

探索性数据分析是一种数据分析方法,它运用多种技术来: - 获得对数据的直观理解。 - 进行合理性检查(确保从中得出的洞见实际上来自正确的数据集)。 - 发现数据缺失的地方。 - 检查是否有任何异常值。 - 总结数据。

让以著名的“黑色星期五销售”案例研究为例来理解为什么需要EDA。核心问题是通过预测购买金额来理解客户行为。但这是否太过抽象,让对如何处理数据感到困惑,特别是当有如此多不同类别的产品时。

在继续阅读之前,请思考这个问题——会将厨房里所有可用的原料直接放入烤箱中烘焙蛋糕吗?显然,答案是不!在将整个数据集直接考虑用于机器学习模型之前,会想要: - 抽取重要的洞见。 - 变量识别(数据是否包含分类或数值变量,或两者的混合)。 - 变量的行为(变量是否有0-10或0-100万的值)。 - 变量之间的关系(变量如何相互依赖)。 - 检查数据一致性。

为了确保所有数据都存在(如果收集了三年的数据,任何一周的缺失都可能在后期阶段成为问题)。是否有任何缺失值存在?数据集中是否有任何异常值?(例如:一个2000岁的人绝对是一个异常值)。

特征工程(从数据集中现有的原始特征中创建新特征)。本质上,EDA可以成就或破坏任何机器学习模型。

探索性数据分析的步骤

探索性数据分析中有五个步骤:

在这一步中,通过发现其类型来识别每个变量。根据需求,可以改变任何变量的数据类型。统计学在数据分析中扮演着重要的角色。它是一套用于分析和解释数据的规则和概念。根据不同的需求,需要进行不同类型的分析。让来学习它们。

在单变量分析中,研究数据集中每个特征/变量的个体特征。有两种类型的功能——连续的和分类的。在下面的图像中,提供了各种图形技术的应用,用于分析它们。

连续变量:为了展示黑色星期五销售数据集中一个连续变量“购买”的单变量分析,创建了一个函数,它接受数据作为输入并绘制一个KDE图,解释该特征的特征。

分类变量:为了展示黑色星期五销售数据集中分类变量“城市类别”和“婚姻状况”的单变量分析,创建了一个函数,它接受数据和特征作为输入,返回一个计数图,解释特征中类别的频率。

在双变量分析中,研究任何两个变量之间的关系,可以是分类-连续的、分类-分类的,或者是连续-连续的(如下所示的备忘单以及用于分析它们的图形技术)。

在黑色星期五销售中,有分类的独立变量和连续的目标变量,因此可以进行分类-连续分析,以了解它们之间的关系。

从上述两个分析中,观察到在单变量分析中,城市类别B的客户数量最多。但是,当在“城市类别”和“购买”之间进行双变量分析时,情况有所不同,城市类别C的平均购买量最高。因此,这些推断可以给更好的数据直觉,这反过来有助于更好的数据准备和特征工程。

需要注意的是,仅仅依赖单变量和双变量分析可能会相当误导,因此可以从这些两个分析中得出的推断可以通过假设检验来验证。

可以进行t检验、卡方检验、方差分析,这允许量化两个样本是否显著相似或不同。在这里,创建了一个函数来分析连续和分类关系,返回t统计值。

在单变量分析中,观察到已婚和未婚客户的数量有显著差异。从t检验中,得到t统计值为0.89,大于显著性水平,即0.05,这表明单身和已婚的平均购买之间没有显著差异。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485