探索性数据分析指南

在进行数据分析之前,首先需要定义问题,然后挖掘和准备数据以供分析。在进行特征工程和模型构建之前,有一个非常重要的步骤,那就是探索性数据分析(EDA)。探索性数据分析是指对数据进行初步研究的过程,目的是发现模式、检测异常值并检验假设,这通常需要借助于汇总统计和图形表示。探索性数据分析是开始分析或建模数据之前的一个重要步骤,它提供了开发合适模型和正确解释结果所需的背景信息。

R语言实现示例

探索性数据分析包括以下几个部分:

在这个阶段,发现数据中的变量类型及其汇总统计信息。首先,在R中上传USArrests数据集,然后使用“headTail”函数打印数据集的前4行和后4行。接着,查看变量的类型和变量的汇总统计信息。"glimpse"和"str"函数可以告诉变量的类型。"profiling_num"函数在funModeling库中提供了详细的统计信息,如均值、标准差、偏度、峰度、四分位数范围等。

以一个例子来解释一些结果:平均而言,每个城市的谋杀案为7.788起。攻击的标准差为83.34,这个值很高。高的标准差表明数据点分布在一个较大的值范围内。偏度是指变量的非对称性。如果偏度大于0,则是右偏分布;如果偏度小于0,则是左偏分布;如果偏度等于0,则是对称分布。因此,城市人口是左偏分布,而强奸是右偏分布。峰度显示了分布的尖锐程度或平坦程度。如果峰度大于3,分布是尖锐的;如果峰度小于3,分布是平坦的;如果峰度等于3,分布是标准正态的。因此,城市人口分布尖锐,而攻击分布平坦。

如图中所示,数据中没有缺失值。

至少两个变量上的异常值组合是一个多变量异常值。异常值可能会影响统计研究的结果,它们可能会扭曲统计分析并违反其假设。将展示多变量和单个异常值。"plot_outlier"函数在"dlookr"库中非常有用,它显示了所有数值变量的箱线图和直方图,包括异常值和不包括异常值。显示箱线图的原因是它们是非常有用的工具,用于可视化异常值。

如图中所示,只有强奸变量有异常值。此外,当查看没有异常值的直方图时,其形状更加对称。让看看多变量异常值(在多变量分析中非常有用,这里只是一个示例)。如图中所示,数据中有7个异常值。

要进行统计方法,评估正态性是很重要的。这个假设允许构建置信区间并进行假设检验。对于正态性检验,没有一种在所有条件下都正确的最佳方法。使用图形方法来决定多变量正态性非常方便,除了数值结果。将它们结合起来可以提供更准确的选择。

当查看直方图和Q-Q图时,没有一个变量看起来是正态的,即使在平方根和对数转换后,直方图看起来也不正态。

在这部分,可以查看不同图形的变量以及变量之间的关系。让提出一些研究问题。

4.1. 哪个城市的谋杀案最多?对于这个问题,可以使用地图或条形图。

!function(){“use strict”;window.addEventListener(“message”,(function(a){if(void 0!==a.data[“datawrapper-height”])for(var e in a.data[“datawrapper-height”]){var t=document.getElementById(“datawrapper-chart-“+e)||document.querySelector(“iframe[src*='”+e+”‘]”);t&&(t.style.height=a.data[“datawrapper-height”][e]+”px”)}}))}();

如图所示,乔治亚州的谋杀案最多。

4.2. 每个城市的变量值是多少?

4.3. 攻击和谋杀之间的关系是什么?对于这个问题,可以绘制一个交互式图表,如上所见,以查看州名。

!function(){“use strict”;window.addEventListener(“message”,(function(a){if(void 0!==a.data[“datawrapper-height”])for(var e in a.data[“datawrapper-height”]){var t=document.getElementById(“datawrapper-chart-“+e)||document.querySelector(“iframe[src*='”+e+”‘]”);t&&(t.style.height=a.data[“datawrapper-height”][e]+”px”)}}))}();

或者,可以使用ggplot来绘制。如图所示,谋杀和攻击之间存在正相关关系。

4.4. 城市人口和强奸之间的关系是什么?线条和散点图显示了两个变量之间的关系,而在边缘可以看到两个变量的箱线图。

可以说,城市人口和强奸之间存在正相关关系。

4.5. 变量之间的关系是什么?让看看变量之间的相关性。为此,可以绘制热图。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485