统计学中的估计量及其性质

在数据分析领域,随机变量的分布特性对于数据科学家和统计学家来说至关重要。以一个研究者试图理解饼干中巧克力碎片的分布为例(这是泊松分布的一个非常流行的例子)。研究者知道巧克力碎片的分布遵循泊松分布,但不知道如何估计分布参数λ。参数本质上是分布(或任何统计模型)的数值特征。正态分布有μ和σ作为参数,均匀分布有a和b作为参数,二项分布有n和p作为参数。这些数值特征对于理解分布的大小、形状、分布范围等属性至关重要。在没有参数真实值的情况下,研究者似乎无法继续她的研究。这时,估计量就发挥作用了。

估计量是随机变量的函数,可以帮助找到这些参数的近似值。可以将这些估计量视为任何其他函数,它接受输入,处理它,并产生输出。因此,估计过程如下:

  1. 从分布中获取一系列随机样本。
  2. 将这些随机样本输入到估计量函数中。
  3. 估计量函数处理它并给出一组输出。
  4. 该组的期望值是参数的近似值。

以一个随机变量X为例,它显示均匀分布。X的分布可以表示为U[0, θ]。以下是分布图(图A)。有随机变量X及其分布,但不知道如何确定θ的值。让使用估计量。解决这个问题有很多方法。将讨论其中的两种:

1) 使用样本均值

知道,对于U[a, b]分布,均值μ由以下方程给出:对于U[0, θ]分布,a=0 & b=θ,得到:因此,如果估计μ,可以估计θ。为了估计μ,使用一个非常流行的估计量,称为样本均值估计量。样本均值是抽取的随机样本值的总和除以样本的大小。例如,如果有一个随机样本S={4, 7, 3, 2},那么样本均值是(4+7+3+2)/4=4(平均值)。一般来说,样本均值使用以下符号定义:

μ̂ = (ΣXi) / n

这里,μ̂是样本均值估计量,n是从分布中抽取的随机样本的大小。一个带有帽子的变量是估计量的一般符号。由于未知的参数θ是μ的两倍,得到以下θ的估计量:

θ̂ = 2 * μ̂

取一个随机样本,将其插入上述估计量中,得到一个数字。重复这个过程,得到一组数字。下图(图B)说明了这个过程:

2) 最大值法

这次,不使用均值,而是使用顺序统计量,特别是第n个顺序统计量。第n个顺序统计量定义为大小为n的随机样本中的第n个最小值。换句话说,它是随机样本中的最大值。例如,如果有一个随机样本S={4, 7, 3, 2},那么第n个顺序统计量是7(最大值)。现在的估计量定义如下:

θ̂ = n * max(Xi)

遵循相同的程序——取随机样本,输入它们,收集输出并找到期望值。下图(图C)说明了这个过程:

如前所述,x轴上的线是样本中存在的值。末端的红线是该样本的最大值,即第n个顺序统计量。图中显示了两个随机样本作为参考。然而,需要取更大的样本。为什么?为了证明这一点,将使用U[a, b]分布的第n个顺序统计量的PDF(概率分布函数)的一般表达式:

f(x) = n * (θ - x)^(n-1) / (θ^n) E(θ̂) = ∫(n * x * (θ - x)^(n-1) / (θ^n)) dx from 0 to θ
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485