在统计学中,矩是一种描述数据分布特征的重要工具。它们基于每个分布得出的数值特征。本文将详细讨论统计学中的矩。
矩在统计学中被广泛用于描述分布的特征。假设关注的随机变量是X,那么矩就是X的期望值。例如,E(X), E(X²), E(X³), E(X⁴)等。
这些矩在统计学中非常有用,因为它们能够告诉很多关于数据的信息。统计学中常用的四个矩包括均值、方差、偏度和峰度。为了比较不同的数据集,将使用这四个基本的统计矩来描述它们。
第一中心矩是期望值,也称为数学期望、均值或平均值。它衡量的是中心点的位置。
情况1:当所有结果发生的概率相同时,它被定义为变量所有可能取值乘以该值发生的概率之和。直观上,可以将其理解为算术平均值。
情况2:当所有结果发生的概率不同时,这是一个更一般的方程,包括每个结果发生的概率,定义为所有变量乘以相应概率的总和。
结论:对于等可能的事件,期望值与算术平均值完全相同。这是衡量中心趋势的最流行指标之一,也称之为平均值。但是,还有其他一些常见的指标,如中位数和众数。
中位数 —— 中间值;众数 —— 最可能的值。
第二中心矩是方差。它衡量的是分布中值的离散程度,或者说与正常值的偏离程度。方差表示一组数据点围绕其均值值的分布情况。
例如,对于一个样本数据集,可以按照以下方式找到方差:
标准差是方差的平方根,由于随机变量X和标准差的单位相同,所以解释起来更容易。
例如,对于正态分布:
现在,让理解给定问题的答案:为什么方差比平均绝对偏差(MAD)更受青睐?方差比MAD更受青睐,原因如下:
第三统计矩是偏度。它衡量分布关于其均值的不对称程度。可以根据其偏度区分三种类型的分布:
例如,对于正态分布,其值的偏度等于0,该分布是对称的。通常,偏度会影响均值、中位数和众数之间的关系:
但是,上述概括并不适用于所有可能的分布。例如,如果一个尾部很长,但另一个尾部很重,这可能不适用。探索数据的最佳方式是首先计算所有三个估计值,然后尝试根据结果得出结论,而不仅仅是关注一般规则。
第四统计矩是峰度。它衡量尾部和异常值的数量。它关注分布的尾部,并解释分布是平坦还是有高峰。这个度量告诉,分布是否比正态分布更富有极端值。
例如,对于正态分布,峰度的值等于3。对于峰度不等于3的情况,有以下情况:
通常,可以根据峰度区分三种类型的分布:
现在,来定义什么是超额峰度:超额峰度 = 峰度 - 3。
理解峰度与异常值的关系:峰度被定义为标准化数据平均值的四次方。任何小于|1|(即,数据在均值的一个标准差内)的标准化值对峰度的贡献很小。
# 第一矩(均值)
import numpy as np
data = [10, 12, 15, 20, 25]
mean = np.mean(data)
print("Mean:", mean)
# 输出
# Mean: 16.4
# 第二矩(方差)
import numpy as np
data = [10, 12, 15, 20, 25]
variance = np.var(data)
print("Variance:", variance)
# 输出
# Variance: 29.839999999999996
# 第三矩(偏度)
import numpy as np
from scipy.stats import skew
data = [10, 12, 15, 20, 25]
skewness = skew(data)
print("Skewness:", skewness)
# 输出
# Skewness: 0.4081372552079214
# 第四矩(峰度)
import numpy as np
from scipy.stats import kurtosis
data = [10, 12, 15, 20, 25]
kurt = kurtosis(data)
print("Kurtosis:", kurt)
# 输出
# Kurtosis: -1.2717442086121507