随机变量的分布可以通过多种方式表达,例如概率密度函数(PDF)、概率质量函数(PMF,用于离散变量)、累积分布函数、联合概率分布等。这些函数的图形可以定性和定量地描述。定性描述涉及描述图形的特征而不使用数值特征,例如说图形是宽的、嘈杂的、平滑的等。而定量描述则使用称为矩的数值特征。统计学中有各种各样的矩,如期望值、方差、偏度、峰度、中位数、众数、协方差、相关性等。
统计科学的广阔领域包括对所有这些分布的矩的详细研究。然而,大多数统计研究主要依赖于其中的两个——期望值和方差。由于随机变量的方差可以通过使用期望值的不同幂次获得,将重点关注后者。
随机变量的期望值(或均值)是其加权平均值。数学上,它显示为:
E(X) = ∫x * f(x) dx
这通常被称为随机变量X的第一矩。就像之前一样,可以定义随机变量的第二矩[E(X^2)]:
E(X^2) = ∫x^2 * f(x) dx
遵循类似的过程来定义第三矩、第四矩、第五矩……最终,第n矩[E(X^n)]如下:
E(X^n) = ∫x^n * f(x) dx
现在假设有一个正态分布,需要找到它的第一矩。这很简单,只需在整个分布范围内积分x乘以PDF。那么第二矩呢?积分x^2乘以PDF。以此类推……
这是一个非常累人的过程,尤其是因为它是积分(或同时求和)。有没有一种替代方法可以帮助简化事情?是的,这就是矩生成函数(MGFs)的用武之地。与依赖于计算冗长积分的传统方法不同,MGFs的方法通过依赖于微分来减轻工作量。
此外,它们还有其他各种优势,使它们在统计公式中扮演中心角色。什么是MGFs以及它们如何工作?让看看!
将矩生成函数视为随机变量分布的替代表示。像PDF和CDF一样,如果两个随机变量具有相同的MGFs,那么它们的分布是相同的。数学上,随机变量X的MGF定义如下:
如果随机变量X的MGF存在,则:
M_X(t) = E(e^(tX))
这里,t是一个常数,其值与X无关。它允许MGF秘密编码许多矩的值。
如何从MGF中获得矩?只需对t关于MGF求导,然后将t=0!如果对MGF关于t求导一次,然后将t=0,将得到第一矩,即E(X)。如果再次求导,现在将t=0,将得到第二矩,即E(X^2)。同样,如果对函数求导n次,然后将t=0,将得到第n矩,即E(X^n)。
关键是只有在求导MGF所需次数之后才执行t=0的替换。数学上,
E(X^n) = M_X^{(n)}(0)
现在,将证明对MGF求导n次并将t=0替换为E(X^n)。将使用e^x的麦克劳林级数:
e^x = 1 + x + x^2/2! + x^3/3! + ...
将现在对两边应用期望,并使用期望的性质:
E(e^tX) = ∑ [E(X^k) * t^k / k!]
对等式两边求导将给:
M_X'(t) = E(X * e^tX)
在t=0时,除了E(X)之外的所有项都被取消,得到:
M_X'(0) = E(X)
这表明MGF在t=0处的第一导数给出了X的第一矩。要证明MGFs对任何第n矩都有效,对E(e^tX)求导n次:
M_X^{(n)}(t) = E[X^n * e^tX]
当将t=0替换时,所有高于t的幂次都被取消,得到:
M_X^{(n)}(0) = E(X^n)
有些人可能发现这个推导真的很难跟上。别担心!只要理解本质,即如何使用MGFs来找到不同分布的不同矩。如果真的热衷于理解推导,再读一遍,并记住:
1. 在对e^tX求导n次时,小于n的X的幂次(即E(X), E(X^2), ..., E(X^(n-1)))被移除(因为它们成为常数)。
2. 当将t=0替换时,大于n的X的幂次(即E(X^(n+1)), E(X^(n+2)), ...)被移除。
因此,只剩下E(X^n),这证明了最初的等式。现在将理解MGFs的一些基本性质。
A) 当随机变量经历线性变换时的矩生成函数:
如果X是一个随机变量,其MGF已知为M_X(t)。假设需要找到随机变量Y的MGF,它是X的线性变换,即Y = αX + β。那么,
M_Y(t) = E(e^(tY)) = E(e^(t(αX + β))) = e^(tβ) * E(e^(tαX)) = e^(tβ) * M_X(tα)
由于e^(tβ)是常数,可以将其从期望中取出,得到以下等式:
M_Y(t) = e^(tβ) * M_X(tα)
B) 几个独立随机变量的线性组合的矩生成函数:
设X_1, X_2, ..., X_n是独立随机变量,其MGFs已知为M_X1(t), M_X2(t), ..., M_Xn(t)。假设需要找到随机变量Y的MGF,它是X_1, X_2, ..., X_n的线性组合,即Y = α_1X_1 + α_2X_2 + ... + α_nX_n + β。按照上述相同程序,得到:
M_Y(t) = E(e^(tY)) = E(e^(t(α_1X_1 + α_2X_2 + ... + α_nX_n + β))) = e^(tβ) * E(e^(tα_1X_1) * e^(tα_2X_2) * ... * e^(tα_nX_n))
根据独立性属性,可以分离各种项:
M_Y(t) = e^(tβ) * M_X1(tα_1) * M_X2(tα_2) * ... * M_Xn(tα_n)
更具体地说,如果Y是独立随机变量的和,那么Y的MGF是这些随机变量的MGF的乘积,即,如果Y = X_1 + X_2 + ... + X_n
C) 两个随机变量的矩生成函数相等的情况:
如果X和Y是两个具有相同MGF的随机变量,那么它们的CDF也相同,即它们的分布相同。数学上,
如果M_X(t) = M_Y(t),那么CDF(X) = CDF(Y)
在这里,将计算MGF并使用它来推导出某些特殊分布——伯努利分布、二项分布、指数分布和正态分布的第一矩。
A) 伯努利分布
伯努利分布是一个离散分布,有两种可能的结果——1(成功)以概率p和0(失败)以概率(1-p)。伯努利分布的PMF定义为:
P(X=1) = p, P(X=0) = 1-p
现在将推导出它的MGF:
M_X(t) = E(e^(tX)) = p * e^t + (1-p) * 1
计算第一矩:
M_X'(0) = p * e^0 = p
因此,已经使用MGF获得了伯努利分布的第一矩表达式。
B) 二项分布
二项分布是一系列独立的伯努利试验,对于所有试验,成功的概率p保持不变。换句话说,n个i.i.d(独立且同分布)伯努利试验的和给出了二项分布:
P(X=k) = C(n, k) * p^k * (1-p)^(n-k)
这次不使用PMF,而是使用一个快捷方式——MGFs的一个属性。回想一下,几个独立随机变量的和的MGF等于它们的MGF的乘积:
M_Y(t) = ∏ M_Xi(t)
将在这里使用这个属性。设Y是具有二项分布的随机变量,Xs是具有伯努利分布的随机变量。将推导出Y的MGF(使用它们具有相同分布的事实,因此具有相同的MGF):
M_Y(t) = (p * e^t + (1-p))^n
计算第一矩:
M_Y'(0) = n * p * (p * e^0 + (1-p))^(n-1) = np
因此,已经使用MGF获得了二项分布的第一矩表达式。
C) 指数分布
指数分布的PDF定义为:
f(x) = λ * e^(-λx), x ≥ 0
现在将推导出它的MGF:
M_X(t) = E(e^(tX)) = ∫_0^∞ e^(tx) * λ * e^(-λx) dx = ∫_0^∞ λ * e^((λ-t)x) dx
计算第一矩:
M_X'(0) = 1/λ
因此,已经使用MGF获得了指数分布的第一矩表达式。
D) 正态分布
对于正态分布,首先讨论标准正态情况,然后是任何一般正态分布。标准正态分布的均值为0,方差为1。
标准正态分布的PDF定义为:
f(x) = (1/√(2π)) * e^(-x^2/2)
现在将推导出它的MGF:
M_X(t) = E(e^(tX)) = ∫_{-∞}^∞ e^(tx) * (1/√(2π)) * e^(-x^2/2) dx
计算第一矩:
M_X'(0) = 0
因此,已经使用MGF获得了标准正态分布的第一矩表达式。
现在,假设想要推导出任何一般正态分布的MGF,其均值为μ,方差为σ^2。这样的分布的PDF如下所示:
f(x) = (1/(σ√(2π))) * e^(-(x-μ)^2/(2σ^2))
但是,不需要再次积分整个表达式,而是可以使用MGF的一个属性。具有均值μ和方差σ^2的随机变量Y可以与具有标准正态分布的随机变量X相关联,如下所示:
Y = X + μ
使用随机变量的线性变换属性,得到:
M_Y(t) = e^(μt) * M_X(t)
经过漫长的推导,已经获得了任何一般正态分布的MGF。计算第一矩:
M_Y'(0) = μ
因此,已经使用MGF获得了正态分布的第一矩表达式。
本文详细讨论了矩生成函数的概念。MGFs及其属性的研究非常深入。还有其他概念,如詹森不等式、切尔诺夫界限、特征函数等——所有这些都与MGFs相关,统计学家可能需要了解,但对于研究来说并不是那么相关。