探索性数据分析在数据科学流程中的重要性

在深入探讨烘焙蛋糕的过程中，会发现，正确混合多种原料和巧妙的发酵剂——泡打粉，可以决定蛋糕的成败。将烘焙蛋糕比作数据科学流程，而聪明的发酵剂（泡打粉）则相当于探索性数据分析（EDA）。在味蕾开始对蛋糕产生渴望之前，让先来理解一下什么是探索性数据分析。

探索性数据分析是一种数据分析方法，它运用多种技术来： - 获得对数据的直观理解。 - 进行合理性检查（确保从中得出的洞见实际上来自正确的数据集）。 - 发现数据缺失的地方。 - 检查是否有任何异常值。 - 总结数据。

让以著名的“黑色星期五销售”案例研究为例来理解为什么需要EDA。核心问题是通过预测购买金额来理解客户行为。但这是否太过抽象，让对如何处理数据感到困惑，特别是当有如此多不同类别的产品时。

在继续阅读之前，请思考这个问题——会将厨房里所有可用的原料直接放入烤箱中烘焙蛋糕吗？显然，答案是不！在将整个数据集直接考虑用于机器学习模型之前，会想要： - 抽取重要的洞见。 - 变量识别（数据是否包含分类或数值变量，或两者的混合）。 - 变量的行为（变量是否有0-10或0-100万的值）。 - 变量之间的关系（变量如何相互依赖）。 - 检查数据一致性。

为了确保所有数据都存在（如果收集了三年的数据，任何一周的缺失都可能在后期阶段成为问题）。是否有任何缺失值存在？数据集中是否有任何异常值？（例如：一个2000岁的人绝对是一个异常值）。

特征工程（从数据集中现有的原始特征中创建新特征）。本质上，EDA可以成就或破坏任何机器学习模型。

探索性数据分析的步骤

探索性数据分析中有五个步骤：

在这一步中，通过发现其类型来识别每个变量。根据需求，可以改变任何变量的数据类型。统计学在数据分析中扮演着重要的角色。它是一套用于分析和解释数据的规则和概念。根据不同的需求，需要进行不同类型的分析。让来学习它们。

在单变量分析中，研究数据集中每个特征/变量的个体特征。有两种类型的功能——连续的和分类的。在下面的图像中，提供了各种图形技术的应用，用于分析它们。

连续变量：为了展示黑色星期五销售数据集中一个连续变量“购买”的单变量分析，创建了一个函数，它接受数据作为输入并绘制一个KDE图，解释该特征的特征。

分类变量：为了展示黑色星期五销售数据集中分类变量“城市类别”和“婚姻状况”的单变量分析，创建了一个函数，它接受数据和特征作为输入，返回一个计数图，解释特征中类别的频率。

在双变量分析中，研究任何两个变量之间的关系，可以是分类-连续的、分类-分类的，或者是连续-连续的（如下所示的备忘单以及用于分析它们的图形技术）。

在黑色星期五销售中，有分类的独立变量和连续的目标变量，因此可以进行分类-连续分析，以了解它们之间的关系。

从上述两个分析中，观察到在单变量分析中，城市类别B的客户数量最多。但是，当在“城市类别”和“购买”之间进行双变量分析时，情况有所不同，城市类别C的平均购买量最高。因此，这些推断可以给更好的数据直觉，这反过来有助于更好的数据准备和特征工程。

需要注意的是，仅仅依赖单变量和双变量分析可能会相当误导，因此可以从这些两个分析中得出的推断可以通过假设检验来验证。

可以进行t检验、卡方检验、方差分析，这允许量化两个样本是否显著相似或不同。在这里，创建了一个函数来分析连续和分类关系，返回t统计值。

在单变量分析中，观察到已婚和未婚客户的数量有显著差异。从t检验中，得到t统计值为0.89，大于显著性水平，即0.05，这表明单身和已婚的平均购买之间没有显著差异。

BERT模型在NLP任务中的应用

本文介绍了BERT模型在自然语言处理领域的应用，包括其背景、原理、工作方式以及如何使用BERT进行文本分类任务。

Python数据科学库探索

探索Python中那些不为人知的数据科学库，提升你的数据分析和机器学习项目效率。

探索性数据分析在数据科学流程中的重要性

探索性数据分析的步骤

BERT模型在NLP任务中的应用

Python数据科学库探索

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379

探索性数据分析在数据科学流程中的重要性

探索性数据分析的步骤

BERT模型在NLP任务中的应用

Python数据科学库探索

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：15216758379

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：15216758379