连续概率分布解析

在之前的文章中,已经定义了概率分布并简要讨论了不同的离散概率分布。本文将继续探讨连续概率分布。连续随机变量可以在给定区间内取无限多个值。例如,在区间[2, 3]中,2和3之间有无限多个值。连续分布是由概率密度函数(PDF)定义的,而不是概率质量函数。连续随机变量取某一确切值的概率总是等于零。连续概率定义在区间上。例如,P(X=3)=0,但可以通过在区间[2.99, 3.01]上积分PDF来计算P(2.99

以下是一些最常用的连续概率分布:

均匀分布既有连续形式也有离散形式。这里讨论连续形式。这种分布在随机变量的值出现概率相等时使用。最常见的例子是掷一个公平的骰子。在这里,所有6个结果都同样可能发生。因此,概率是恒定的。考虑一个例子,其中a=10,b=20,分布如下所示:PDF由下式给出,其中a是最小值,b是最大值。

f(x) = \frac{1}{b-a} \quad \text{for} \quad a \leq x \leq b

这是最常讨论的分布,也是在现实世界中最常遇到的分布。许多连续分布在样本量足够大时往往趋向于正态分布。这个分布有两个参数,即均值和标准差。这个分布有许多有趣的性质。均值具有最高的概率,所有其他值在均值的两侧对称分布。标准正态分布是一个特殊情况,其中均值为0,标准差为1。它还遵循经验公式,68%的值在1个标准差范围内,95%的值在2个标准差范围内,99.7%的值在3个标准差范围内。这个性质在设计假设检验时非常有用。PDF由下式给出,其中μ是随机变量X的均值,σ是标准差。

f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

这种分布在随机变量的对数值遵循正态分布时使用。考虑随机变量X和Y。Y=ln(X)是在这个分布中表示的变量,其中ln表示X值的自然对数。PDF由下式给出,其中μ是Y的均值,σ是Y的标准差。

f(y) = \frac{1}{y\sigma\sqrt{2\pi}}e^{-\frac{(\ln y - \mu)^2}{2\sigma^2}} \quad \text{for} \quad y > 0

学生t分布与正态分布相似。不同之处在于分布的尾部更厚。当样本量小且总体方差未知时使用这个分布。这个分布由自由度(p)定义,计算公式为样本量减1(n-1)。随着样本量的增加,自由度增加,t分布接近正态分布,尾部变窄,曲线更接近均值。当样本量小于30且总体方差未知时,这个分布用于测试总体均值的估计。样本方差/标准差用于计算t值。PDF由下式给出,其中p是自由度,Γ是伽马函数。

f(t) = \frac{\Gamma\left(\frac{p+1}{2}\right)}{\sqrt{p\pi}\Gamma\left(\frac{p}{2}\right)}\left(1+\frac{t^2}{p}\right)^{-\frac{p+1}{2}}

这个分布等于p个正态随机变量平方和。p是自由度的数量。像t分布一样,随着自由度的增加,分布逐渐接近正态分布。PDF由下式给出,其中p是自由度,Γ是伽马函数。卡方值的计算公式如下:

χ^2 = \sum_{i=1}^{p} (Z_i - \mu)^2

其中o是观测值,E代表期望值。这在假设检验中用于推断正态分布的总体方差。

回想在离散概率分布中讨论的泊松分布。在那个例子中,考虑了每小时平均来电次数。现在,在这个分布中,解释了连续来电之间的时间。指数分布可以看作是泊松分布的逆。考虑的事件是相互独立的。PDF由下式给出,其中λ是速率参数。λ=1/(事件之间的平均时间)。

f(x) = \lambda e^{-\lambda x} \quad \text{for} \quad x \geq 0

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485