在统计学领域,68-95-99.7%规则,也称为经验法则,是一个基于正态分布的强大工具,它允许在不了解数据细节的情况下对数据分布做出推断。但在深入探讨这一概念之前,需要先理解一些基本的统计学术语,如数据分布、均值、方差、概率密度函数(PDF)和累积分布函数(CDF)等。
数据分布是概率论和统计学中的核心概念之一。它揭示了随机数据的性质,展示了数据在随机变量的最小值和最大值(称为范围)之间的分布情况。数据分布实际上是统计函数,为提供了关于数据的重要直觉,并给出了对决策至关重要的各种值。简而言之,概率分布是一个统计函数,它提供了随机变量可能包含的所有信息和值。数据的分布包含一个范围,统计分布函数在该范围内产生结果,范围就是随机变量可能具有的最小值和最大值。
以人类身高为例,如果测量50个随机个体的身高,会发现这些身高遵循某种分布。如果想要了解人类身高的信息,就会使用概率分布。
使用这些分布在概率论和统计学中的原因很简单,想要回答关于数据或随机变量的各种问题。概率论和统计学的强大之处在于,它们能够通过一些简单的计算来回答问题。统计学和概率论使能够在不直接查看数据的情况下了解数据。因此,概率论和统计学提供了各种类型的分布,如高斯(即正态)、伯努利、二项式、对数正态、泊松分布等。如果只知道数据或随机变量遵循概率论和统计学中的任何一种分布,就可以回答大量与数据相关的问题,这就是在概率论和统计学中使用分布的原因。
在开始学习经验法则之前,需要理解均值、方差、PDF和CDF的概念,因为不了解这些术语就无法想象分布。
均值是所有数据点的平均值。通过将所有数据点的总和除以数据点的数量来计算均值,用符号μ
表示。均值给出了数据点的中心趋势。均值的计算公式如下:
μ = (Σxᵢ) / n
其中,xᵢ
是随机变量X
中的每个数据点,n
是数据点的数量。
方差是每个数据点与均值之间平方距离的平均值。方差告诉分布的离散程度,换句话说,方差告诉数据点与均值之间的距离有多远。方差用符号σ²
表示。方差的计算公式如下:
σ² = Σ(xᵢ - μ)² / n
如果对方差σ²
取平方根,就得到了标准差,用符号σ
表示。
PDF是直方图的平滑形式,它定义了随机变量特定值上的数据点密度。换句话说,PDF是给定数据范围内数据点密度的度量。
累积分布函数是描述随机变量的方法。这个函数显示了0到给定点之间数据点的百分比。换句话说,它告诉给定数据点在数据100%分布上的位置。CDF的值总是在0到1之间。如果在x轴上画一条垂直线,那么在图上的某处会有一个点切割CDF函数,如果垂直地将CDF的交点连接到y轴,那么就能找到x轴上数据点在y轴上的概率。例如,如果x轴上的值是1.5,那么按照上述方法画垂直线,将发现分布中值小于或等于1.5的点占60%。
在正态或高斯分布下看到这条规则。当数据或随机变量遵循正态分布时,可以将这个规则应用于数据。让了解一下高斯分布。
高斯分布是对称分布。这意味着如果画出正态分布的概率密度函数(PDF),那么均值两侧的PDF将是彼此的镜像。高斯分布的PDF是一个对称的钟形曲线。