中级统计学概念在数据分析中的应用

在这篇文章中,将探讨一些在探索性数据分析特征工程任务中非常有用的中级统计学术语。如果是初学者,建议先阅读之前的文章《机器学习中的基本统计概念》,这将帮助熟悉统计学的重要性和一些基本术语,以便更好地理解这些中级术语。

目录

  • 统计学中的Z-Score
  • 置信区间
  • 假设检验
  • I型错误和II型错误
  • 不同类型的假设检验
  • 协方差
  • 相关性
  • 皮尔逊相关系数
  • 斯皮尔曼等级相关系数
  • 结论

1) Z-Score

Z-Score是一种描述特定值与一组值的平均值关系的度量。它以标准差的形式从平均值中测量,并使用以下公式计算:

z = (x – μ) / σ

Z-Score的应用包括:

Z-Score帮助了解一个值距离平均值多少个标准差。在标准化中使用Z-Score,可以将特征值缩放到平均值附近。使用Z-Score比较不同分布的分数,例如,假设有过去两年的印英测试系列数据,可以根据平均分、最高分和标准差来找出哪一年印度队表现更强大。可以使用Z-Score解决这类问题。

使用Python计算Z-Score:

z = (x – μ) / σ

2) 置信区间

置信区间是一种概率,表示在一定比例的时间内,总体参数将落在某个特定范围内。简单来说,置信区间告诉在特定范围内发生的某些事件的百分比置信度。它是数据分析中证明假设真实性的重要度量之一。

CI = 点估计 ± 误差范围

其中误差范围基本上是标准差,点估计是平均值。计算置信区间时,计算点估计,例如,需要找到95%的置信区间,将假设点估计为95,并尝试找出数据量位于哪个范围内。

使用Python计算置信区间:

import scipy.stats as stat import numpy as np np.random.seed(10) data = np.random.randint(10, 30, 50) conf_interval = stat.norm.interval(alpha=0.95, loc=np.mean(data), scale=stat.sem(data)) print(conf_interval)

95%的置信区间为真实总体平均值是(18.93, 22.10)。

3)假设检验

假设检验是一种统计方法,用于评估总体上的两个相互排斥的陈述。在数据科学中,通过样本数据来评估这些陈述。

假设检验的步骤包括:

提出初始假设 - 初始假设被称为零假设(H0),在实验前总是假定为真。与它相对的是备择假设(H1)。

收集数据 - 为了证明假设是正确的,收集一些相关数据,或者可以说是收集证据来证明陈述是正确的。在处理机器学习问题时,拥有数据,并尝试从中找到模式作为证据。

I型错误和II型错误 - 当知道实际结果零假设为真,但由于缺乏证据而未能证明它,必须拒绝它并选择备择假设,这被称为I型错误。相反,当不能拒绝零假设时,就会发生II型错误。可以通过混淆矩阵更好地理解它。

执行假设检验的不同测试包括:

I) P值检验 - P值是在假设零假设正确的情况下,获得至少与观察结果一样极端的结果的概率。P值也称为显著性水平,通常假定为5%或0.05。当P值小于5%时,意味着没有足够的证据证明零假设是正确的,必须拒绝它。P值通常使用P值表或Z表找到。

II) 卡方检验 - 卡方检验是展示两个分类特征之间关系的一种很好的方法。卡方检验是一种度量,基本上告诉观察计数和如果没有两个变量之间关系,期望的计数之间的差异。

使用Python计算卡方检验的P值:

import scipy.stats as stat stat.chi2.pdf(3.84, 1)

应用卡方变换并计算概率密度函数,从而得到P值。

III) T检验 - 当假设连续特征进行假设检验时,使用的是T检验。T检验告诉两组平均值之间是否存在显著差异,这些组可能与标签相关或不相关。简而言之,T检验帮助比较两组的平均值,并确定它们是否来自同一总体。

计算T值需要3个数据值,包括平均值之间的差异、标准差和多个观测值。

4) 协方差

协方差是数据预处理中的一个重要概念,用于量化两个随机变量之间的关系。协方差的计算公式如下:

Cov(x,y) = Σ[(xi – x̄) * (yi – ȳ)] / (n – 1)

其中,xi是数据集中给定的x值,x̄是x值的平均值,yi是与xi对应的数据集中的y值,ȳ是y值的平均值,n是数据点的数量。

协方差是一个重要的术语,它将帮助在数据分析步骤中,并且被许多机器学习算法如线性回归所使用。

使用Python计算协方差:

import numpy as np arr = np.array([[2,6,8],[1,5,7],[3,6,9]]) print("covariance: ", np.cov(arr))

5) 相关性

相关性是一种度量,用于表示两个变量之间关系的强度。相关性是协方差的缩放形式,范围在-1到+1之间。如果相关性的值接近+1,这意味着两个变量高度正相关。相反,如果值接近-1,则意味着两个变量负相关。它基本上测量了两个变量之间的线性关系的强度和方向。

强度 - 如果有X和Y两个变量,那么如果X增加,Y是增加还是减少,这只是相关性告诉强度。

关系的指向 - 这意味着关系是正向还是负向。

还使用相关性进行特征选择,以避免数据中的多重共线性。计算两个变量之间相关系数的不同方法包括:

I) 皮尔逊相关系数 - 这是最常用的技术,用于寻找相关系数。皮尔逊相关系数是两个变量的协方差除以它们的标准差的乘积。它的范围在-1到+1之间,用ρ(rho)表示。

当存在完美的线性关系时,皮尔逊相关系数的值将是+1(当X增加时,Y也增加)。

当X(自变量)增加时,Y(因变量)减少,则值为-1。

当存在非线性关系或常数线为0时,值为0。

可以直接使用pandas数据框的corr方法来找到皮尔逊相关系数。

df.corr()

II) 斯皮尔曼等级相关系数 - 它在方法上略有不同。在斯皮尔曼等级相关中,尝试找到X和Y的等级的皮尔逊相关。现在,X和Y的等级是什么?

计算斯皮尔曼相关系数的步骤包括:

按第一列(Xi)对数据进行排序,并创建一个新列,为其分配从1,2,3,…n的排名值。

现在按第二列(Yi)对数据进行排序。创建另一个列,并对其进行排名。

创建一个新列差异(Di),它包含两个排名列之间的差异。

最后,创建一个新列,包含差异列的平方值。

现在有了所有值,将值代入方程,将得到相关系数。

已经介绍了一些在特征工程数据分析中使用的重要统计概念。希望这些概念对来说容易理解。如果有任何疑问,请在评论框中留言。到目前为止,基本和中级统计已经完成,接下来的文章中,将讨论一些在面试中经常使用和询问的高级统计术语。

继续学习,快乐学习。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485