统计学中的矩

在统计学中,矩是一种描述数据分布特征的重要工具。它们基于每个分布得出的数值特征。本文将详细讨论统计学中的矩。

目录

  • 什么是统计学中的矩?
  • 第一矩
  • 第二矩
  • 第三矩
  • 第四矩
  • 不同类型的矩
  • Python代码示例计算矩
  • 结束语
  • 常见问题解答

什么是统计学中的矩?

矩在统计学中被广泛用于描述分布的特征。假设关注的随机变量是X,那么矩就是X的期望值。例如,E(X), E(X²), E(X³), E(X⁴)等。

这些矩在统计学中非常有用,因为它们能够告诉很多关于数据的信息。统计学中常用的四个矩包括均值、方差、偏度和峰度。为了比较不同的数据集,将使用这四个基本的统计矩来描述它们。

第一矩

第一中心矩是期望值,也称为数学期望、均值或平均值。它衡量的是中心点的位置。

情况1:当所有结果发生的概率相同时,它被定义为变量所有可能取值乘以该值发生的概率之和。直观上,可以将其理解为算术平均值。

情况2:当所有结果发生的概率不同时,这是一个更一般的方程,包括每个结果发生的概率,定义为所有变量乘以相应概率的总和。

结论:对于等可能的事件,期望值与算术平均值完全相同。这是衡量中心趋势的最流行指标之一,也称之为平均值。但是,还有其他一些常见的指标,如中位数和众数。

中位数 —— 中间值;众数 —— 最可能的值。

第二矩

第二中心矩是方差。它衡量的是分布中值的离散程度,或者说与正常值的偏离程度。方差表示一组数据点围绕其均值值的分布情况。

例如,对于一个样本数据集,可以按照以下方式找到方差:

标准差是方差的平方根,由于随机变量X和标准差的单位相同,所以解释起来更容易。

例如,对于正态分布:

  • 第一标准差:68.27%的数据点位于此范围内;
  • 第二标准差:95.45%的数据点位于此范围内;
  • 第三标准差:99.73%的数据点位于此范围内。

现在,让理解给定问题的答案:为什么方差比平均绝对偏差(MAD)更受青睐?方差比MAD更受青睐,原因如下:

  • 数学性质:方差函数在连续和可微分的情况下都适用。
  • 对于总体,样本的标准差是更一致的估计:如果从一个正态分布的总体中抽取重复样本,那么样本的标准差比平均绝对偏差的分布更集中。

第三矩

第三统计矩是偏度。它衡量分布关于其均值的不对称程度。可以根据其偏度区分三种类型的分布:

  • 对称分布:如果一个分布的两个尾部都是对称的,且偏度等于零,则该分布是对称的。
  • 正偏态:在这些类型的分布中,右侧尾部(较大值)更长。因此,这也告诉关于高于均值的“异常值”。有时,这也被称为右偏态、右尾或向右偏斜。
  • 负偏态:在这些类型的分布中,左侧尾部(较小值)更长。因此,这也告诉关于低于均值的“异常值”。有时,这也被称为左偏态、左尾或向左偏斜。

例如,对于正态分布,其值的偏度等于0,该分布是对称的。通常,偏度会影响均值、中位数和众数之间的关系:

  • 对于对称分布:均值 = 中位数 = 众数
  • 对于正偏态分布:众数 < 中位数 < 均值(大值尾部)
  • 对于负偏态分布:均值 < 中位数 < 众数(小值尾部)

但是,上述概括并不适用于所有可能的分布。例如,如果一个尾部很长,但另一个尾部很重,这可能不适用。探索数据的最佳方式是首先计算所有三个估计值,然后尝试根据结果得出结论,而不仅仅是关注一般规则。

第四矩

第四统计矩是峰度。它衡量尾部和异常值的数量。它关注分布的尾部,并解释分布是平坦还是有高峰。这个度量告诉,分布是否比正态分布更富有极端值。

例如,对于正态分布,峰度的值等于3。对于峰度不等于3的情况,有以下情况:

  • 峰度<3[轻尾]:负峰度表示分布范围较宽且平坦。
  • 峰度>3[重尾]:正峰度表示分布范围较窄且有尖峰。

通常,可以根据峰度区分三种类型的分布:

  • 中峰态:这些类型的分布具有峰度为3或超额峰度为0。这个类别包括正态分布和一些特定的二项分布。
  • 尖峰态:这些类型的分布具有峰度大于3,或超额峰度大于0。这是尾部更胖、峰值更窄的分布。
  • 扁峰态:这些类型的分布具有峰度小于3或超额峰度小于0(负)。这是一个与正态分布相比尾部非常薄的分布。

现在,来定义什么是超额峰度:超额峰度 = 峰度 - 3。

理解峰度与异常值的关系:峰度被定义为标准化数据平均值的四次方。任何小于|1|(即,数据在均值的一个标准差内)的标准化值对峰度的贡献很小。

不同类型的矩

  • 原矩:原矩或关于零的n阶矩是概率密度函数f(x)的期望值X^n。它也被称为粗矩。
  • 中心矩:中心矩是定义在随机变量均值周围的随机变量的概率分布的矩,即它是偏离随机变量均值的指定整数幂的期望值。
  • 标准化矩:标准化矩是一种概率分布的矩,通常是更高阶的中心矩,但通常通过除以标准差来归一化,从而使矩尺度不变。

Python代码示例计算矩

# 第一矩(均值) import numpy as np data = [10, 12, 15, 20, 25] mean = np.mean(data) print("Mean:", mean) # 输出 # Mean: 16.4 # 第二矩(方差) import numpy as np data = [10, 12, 15, 20, 25] variance = np.var(data) print("Variance:", variance) # 输出 # Variance: 29.839999999999996 # 第三矩(偏度) import numpy as np from scipy.stats import skew data = [10, 12, 15, 20, 25] skewness = skew(data) print("Skewness:", skewness) # 输出 # Skewness: 0.4081372552079214 # 第四矩(峰度) import numpy as np from scipy.stats import kurtosis data = [10, 12, 15, 20, 25] kurt = kurtosis(data) print("Kurtosis:", kurt) # 输出 # Kurtosis: -1.2717442086121507
  • 数据科学中的统计学:什么是正态分布?
  • 数据科学初学者的完整统计指南!
  • 数据科学的端到端统计
  • 学习统计的最佳资源
  • 机器学习中统计学的初学者指南!
Q1. 统计学中矩的公式是什么?
A. 统计学中矩的公式取决于矩的阶数。例如,第一矩(均值)的公式是Σ(xi)/n,其中xi是数据集中的每个值,n是数据点的数量。
Q2. 概率中的矩是什么?
A. 概率理论中的矩是用于描述概率分布的形状和特征的数学量。它们提供了对随机变量行为的洞察,并帮助量化中心趋势和离散程度等属性。
Q3. 为什么统计学中的矩被称为矩?
A. 统计学中的矩被称为矩,因为它们捕捉了分布的“本质”或“特征”。“矩”这个词来自拉丁语,意思是“运动”或“力”。矩捕捉了数据点远离参考点(如均值)的“运动”或趋势,并提供了关于分布形状和属性的信息。
Q4. 统计学中的第五矩是什么?
A. 统计学中的第五矩指的是第五阶矩,它提供了关于分布形状和不对称性的信息。它量化了分布对对称性的偏离,并可能表明存在重尾或偏度。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485