数据科学中的偏度、峰度和变异系数

在进行描述性分析或将统计测试应用于数据集时,经常会遇到关于偏度、峰度和变异系数的问题。这些统计量对于理解数据集的分布特征至关重要。本文将逐一解释这些术语的定义、类型、重要性及其应用。

偏度:定义、类型、范围和示例

偏度是描述数据分布围绕均值的不对称性的统计术语。数据集中极端值(异常值)的存在在拉动分布向一侧偏斜中起着重要作用。主要的极端低值会将分布拉向右侧(中位数 > 均值),整个分布看起来呈现负偏斜;同样,极端高值会将分布拉向左侧(均值 > 中位数),形成正偏斜。但是,这些数据拉动作用是水平地向均值的左侧或右侧进行的。

均值 < 中位数:负偏斜分布(-ve偏度) 均值 = 中位数:对称分布(零偏度) 均值 > 中位数:正偏斜分布(+ve偏度)

# 导入有用的Python库 import pandas as pd import numpy as np import matplotlib.pyplot as plt import scipy.stats as st # 加载数据 data = np.loadtxt("dataset.txt") # 绘制直方图 plt.hist(data, bins=50); mean = np.mean(data) print(mean) median = np.median(data) print(median)

在案例中,均值(7.68)大于中位数(6.73),这意味着可以声明给定的分布形成了正偏斜分布。但是,这种偏斜程度是多少,或者是否可以被认为是近似正偏斜或近似正态分布呢?

这里,偏度范围来帮助。下面的图表显示了正态近似和偏斜正态近似之间的差异,仅供参考。找到偏度并与其范围进行比较将有助于进一步得出结论。

# 绘制分布的Python代码 xs = np.linspace(data.min(), data.max(), 100) ys1 = st.norm.pdf(xs, loc=mean, scale=std) ps = st.skewnorm.fit(data) ys2 = st.skewnorm.pdf(xs, *ps) plt.hist(data, bins=50, density=True, histtype="step", label="Data") plt.plot(xs, ys1, label="Normal approximation") plt.plot(xs, ys2, label="Skewnormal approximation") plt.legend() plt.ylabel("Probability") skewness = st.skew(data) print(skewness)

偏度范围:通常,如果偏度值在-0.5到0.5之间,则认为分布是正态偏斜分布,并且在该范围内,也可以被认为是近似正态分布的。如果偏度值从-0.5到-1为负偏斜,0.5到1为正偏斜,则表明给定分布中存在中度偏斜。如果偏度值小于-1为负偏斜,大于+1为正偏斜,则称该分布为高度偏斜。

结论:因此,在案例中,偏度值(0.74)落在0.5到1的范围内,这意味着分布是中度正偏斜的。但不能被认为是近似正态分布的。

峰度:类型、范围和应用

峰度是描述给定分布曲线峰度的统计量。它定义了曲线接近分布中心时的上升陡峭程度。峰度还测量了在平坦峰度的情况下,数据中异常值的存在是否为重尾数据。然而,与偏度不同,数据拉动作用是向上或向下的。

峰度类型: 如果峰度 > 3,它被称为尖峰态(短尾),低标准差,更多的数据集中在均值附近,形成正峰度。 如果峰度 < 3,它被称为平坦峰度(长尾),高标准差,显示异常值的存在,并形成负峰度。 如果峰度 = 3,则被称为中峰度(像正态分布可以被称为中峰度)形成零峰度。

# 计算数据集的峰度值 kurtosis = st.kurtosis(data, fisher=False) print(kurtosis)

峰度范围:峰度值可以从1到+无穷大。但通常,峰度值=3(中峰度)表示正态分布。峰度值>3表示正峰度(尖峰态)与低SD,峰度值<3表示负峰度(平坦峰度)。

结论:在案例中,由于数据不是正态分布的,所以得出的峰度值(3.55)可以被称为正峰度,形成尖峰态类型。

变异系数

变异系数可以定义为等于标准差除以均值的百分比变化。当在具有不同单位的数据中测量变化时,它是一种相对的百分比变化度量。

结论:统计变化度量有助于在正确解释和理解其值的情况下做出更好的决策。上述示例显示了这些变化在实际工作场景中的重要性。

偏度测量数据在均值两侧的水平拉动(正或负),基于极端值(低或高)的存在。其相关性/重要性基于领域/部分的上下文。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485