在数据分析领域,随机变量的分布特性对于数据科学家和统计学家来说至关重要。以一个研究者试图理解饼干中巧克力碎片的分布为例(这是泊松分布的一个非常流行的例子)。研究者知道巧克力碎片的分布遵循泊松分布,但不知道如何估计分布参数λ。参数本质上是分布(或任何统计模型)的数值特征。正态分布有μ和σ作为参数,均匀分布有a和b作为参数,二项分布有n和p作为参数。这些数值特征对于理解分布的大小、形状、分布范围等属性至关重要。在没有参数真实值的情况下,研究者似乎无法继续她的研究。这时,估计量就发挥作用了。
估计量是随机变量的函数,可以帮助找到这些参数的近似值。可以将这些估计量视为任何其他函数,它接受输入,处理它,并产生输出。因此,估计过程如下:
以一个随机变量X为例,它显示均匀分布。X的分布可以表示为U[0, θ]。以下是分布图(图A)。有随机变量X及其分布,但不知道如何确定θ的值。让使用估计量。解决这个问题有很多方法。将讨论其中的两种:
知道,对于U[a, b]分布,均值μ由以下方程给出:对于U[0, θ]分布,a=0 & b=θ,得到:因此,如果估计μ,可以估计θ。为了估计μ,使用一个非常流行的估计量,称为样本均值估计量。样本均值是抽取的随机样本值的总和除以样本的大小。例如,如果有一个随机样本S={4, 7, 3, 2},那么样本均值是(4+7+3+2)/4=4(平均值)。一般来说,样本均值使用以下符号定义:
μ̂ = (ΣXi) / n
这里,μ̂是样本均值估计量,n是从分布中抽取的随机样本的大小。一个带有帽子的变量是估计量的一般符号。由于未知的参数θ是μ的两倍,得到以下θ的估计量:
θ̂ = 2 * μ̂
取一个随机样本,将其插入上述估计量中,得到一个数字。重复这个过程,得到一组数字。下图(图B)说明了这个过程:
这次,不使用均值,而是使用顺序统计量,特别是第n个顺序统计量。第n个顺序统计量定义为大小为n的随机样本中的第n个最小值。换句话说,它是随机样本中的最大值。例如,如果有一个随机样本S={4, 7, 3, 2},那么第n个顺序统计量是7(最大值)。现在的估计量定义如下:
θ̂ = n * max(Xi)
遵循相同的程序——取随机样本,输入它们,收集输出并找到期望值。下图(图C)说明了这个过程:
如前所述,x轴上的线是样本中存在的值。末端的红线是该样本的最大值,即第n个顺序统计量。图中显示了两个随机样本作为参考。然而,需要取更大的样本。为什么?为了证明这一点,将使用U[a, b]分布的第n个顺序统计量的PDF(概率分布函数)的一般表达式:
f(x) = n * (θ - x)^(n-1) / (θ^n)
E(θ̂) = ∫(n * x * (θ - x)^(n-1) / (θ^n)) dx from 0 to θ