统计学中的矩

在统计学中，矩是一种描述数据分布特征的重要工具。它们基于每个分布得出的数值特征。本文将详细讨论统计学中的矩。

什么是统计学中的矩？

矩在统计学中被广泛用于描述分布的特征。假设关注的随机变量是X，那么矩就是X的期望值。例如，E(X), E(X²), E(X³), E(X⁴)等。

这些矩在统计学中非常有用，因为它们能够告诉很多关于数据的信息。统计学中常用的四个矩包括均值、方差、偏度和峰度。为了比较不同的数据集，将使用这四个基本的统计矩来描述它们。

第一矩

第一中心矩是期望值，也称为数学期望、均值或平均值。它衡量的是中心点的位置。

情况1：当所有结果发生的概率相同时，它被定义为变量所有可能取值乘以该值发生的概率之和。直观上，可以将其理解为算术平均值。

情况2：当所有结果发生的概率不同时，这是一个更一般的方程，包括每个结果发生的概率，定义为所有变量乘以相应概率的总和。

结论：对于等可能的事件，期望值与算术平均值完全相同。这是衡量中心趋势的最流行指标之一，也称之为平均值。但是，还有其他一些常见的指标，如中位数和众数。

中位数 —— 中间值；众数 —— 最可能的值。

第二矩

第二中心矩是方差。它衡量的是分布中值的离散程度，或者说与正常值的偏离程度。方差表示一组数据点围绕其均值值的分布情况。

例如，对于一个样本数据集，可以按照以下方式找到方差：

标准差是方差的平方根，由于随机变量X和标准差的单位相同，所以解释起来更容易。

例如，对于正态分布：

第一标准差：68.27%的数据点位于此范围内；
第二标准差：95.45%的数据点位于此范围内；
第三标准差：99.73%的数据点位于此范围内。

现在，让理解给定问题的答案：为什么方差比平均绝对偏差（MAD）更受青睐？方差比MAD更受青睐，原因如下：

数学性质：方差函数在连续和可微分的情况下都适用。
对于总体，样本的标准差是更一致的估计：如果从一个正态分布的总体中抽取重复样本，那么样本的标准差比平均绝对偏差的分布更集中。

第三矩

第三统计矩是偏度。它衡量分布关于其均值的不对称程度。可以根据其偏度区分三种类型的分布：

对称分布：如果一个分布的两个尾部都是对称的，且偏度等于零，则该分布是对称的。
正偏态：在这些类型的分布中，右侧尾部（较大值）更长。因此，这也告诉关于高于均值的“异常值”。有时，这也被称为右偏态、右尾或向右偏斜。
负偏态：在这些类型的分布中，左侧尾部（较小值）更长。因此，这也告诉关于低于均值的“异常值”。有时，这也被称为左偏态、左尾或向左偏斜。

例如，对于正态分布，其值的偏度等于0，该分布是对称的。通常，偏度会影响均值、中位数和众数之间的关系：

对于对称分布：均值 = 中位数 = 众数
对于正偏态分布：众数 < 中位数 < 均值（大值尾部）
对于负偏态分布：均值 < 中位数 < 众数（小值尾部）

但是，上述概括并不适用于所有可能的分布。例如，如果一个尾部很长，但另一个尾部很重，这可能不适用。探索数据的最佳方式是首先计算所有三个估计值，然后尝试根据结果得出结论，而不仅仅是关注一般规则。

第四矩

第四统计矩是峰度。它衡量尾部和异常值的数量。它关注分布的尾部，并解释分布是平坦还是有高峰。这个度量告诉，分布是否比正态分布更富有极端值。

例如，对于正态分布，峰度的值等于3。对于峰度不等于3的情况，有以下情况：

峰度<3[轻尾]：负峰度表示分布范围较宽且平坦。
峰度>3[重尾]：正峰度表示分布范围较窄且有尖峰。

通常，可以根据峰度区分三种类型的分布：

中峰态：这些类型的分布具有峰度为3或超额峰度为0。这个类别包括正态分布和一些特定的二项分布。
尖峰态：这些类型的分布具有峰度大于3，或超额峰度大于0。这是尾部更胖、峰值更窄的分布。
扁峰态：这些类型的分布具有峰度小于3或超额峰度小于0（负）。这是一个与正态分布相比尾部非常薄的分布。

现在，来定义什么是超额峰度：超额峰度 = 峰度 - 3。

理解峰度与异常值的关系：峰度被定义为标准化数据平均值的四次方。任何小于|1|（即，数据在均值的一个标准差内）的标准化值对峰度的贡献很小。

不同类型的矩

原矩：原矩或关于零的n阶矩是概率密度函数f(x)的期望值X^n。它也被称为粗矩。
中心矩：中心矩是定义在随机变量均值周围的随机变量的概率分布的矩，即它是偏离随机变量均值的指定整数幂的期望值。
标准化矩：标准化矩是一种概率分布的矩，通常是更高阶的中心矩，但通常通过除以标准差来归一化，从而使矩尺度不变。

Python代码示例计算矩


            # 第一矩（均值）
            import numpy as np

            data = [10, 12, 15, 20, 25]

            mean = np.mean(data)
            print("Mean:", mean)
            # 输出
            # Mean: 16.4

            # 第二矩（方差）
            import numpy as np

            data = [10, 12, 15, 20, 25]

            variance = np.var(data)
            print("Variance:", variance)
            # 输出
            # Variance: 29.839999999999996

            # 第三矩（偏度）
            import numpy as np
            from scipy.stats import skew

            data = [10, 12, 15, 20, 25]

            skewness = skew(data)
            print("Skewness:", skewness)
            # 输出
            # Skewness: 0.4081372552079214

            # 第四矩（峰度）
            import numpy as np
            from scipy.stats import kurtosis

            data = [10, 12, 15, 20, 25]

            kurt = kurtosis(data)
            print("Kurtosis:", kurt)
            # 输出
            # Kurtosis: -1.2717442086121507

数据科学中的统计学：什么是正态分布？
数据科学初学者的完整统计指南！
数据科学的端到端统计
学习统计的最佳资源
机器学习中统计学的初学者指南！

Q1. 统计学中矩的公式是什么？: A. 统计学中矩的公式取决于矩的阶数。例如，第一矩（均值）的公式是Σ(xi)/n，其中xi是数据集中的每个值，n是数据点的数量。
Q2. 概率中的矩是什么？: A. 概率理论中的矩是用于描述概率分布的形状和特征的数学量。它们提供了对随机变量行为的洞察，并帮助量化中心趋势和离散程度等属性。
Q3. 为什么统计学中的矩被称为矩？: A. 统计学中的矩被称为矩，因为它们捕捉了分布的“本质”或“特征”。“矩”这个词来自拉丁语，意思是“运动”或“力”。矩捕捉了数据点远离参考点（如均值）的“运动”或趋势，并提供了关于分布形状和属性的信息。
Q4. 统计学中的第五矩是什么？: A. 统计学中的第五矩指的是第五阶矩，它提供了关于分布形状和不对称性的信息。它量化了分布对对称性的偏离，并可能表明存在重尾或偏度。

MLOps与DevOps的深入解析

本文深入探讨了MLOps和DevOps的概念、区别以及它们在软件开发和机器学习领域的应用。

电影推荐系统开发指南

本文介绍了如何开发一个基于内容的电影推荐系统，包括数据预处理、特征提取、相似度计算和推荐引擎训练测试。

统计学中的矩

目录

什么是统计学中的矩？

第一矩

第二矩

第三矩

第四矩

不同类型的矩

Python代码示例计算矩

MLOps与DevOps的深入解析

电影推荐系统开发指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

统计学中的矩

目录

什么是统计学中的矩？

第一矩

第二矩

第三矩

第四矩

不同类型的矩

Python代码示例计算矩

MLOps与DevOps的深入解析

电影推荐系统开发指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485