序数统计是统计学中一个非常有用的分支,它在诸如拍卖模型、赛车比赛和保险政策等多个领域都有广泛的应用。本文将逐步介绍序数统计的概念,包括其含义、分布以及更高级的概念。
假设有一组随机变量X_1, X_2, ..., X_n
,它们是相互独立且同分布的(i.i.d)。独立意味着一个随机变量的取值不受其他随机变量取值的影响,同分布则意味着这些随机变量具有相同的概率密度函数(PDF)或累积分布函数(CDF)。对于这组随机变量,第k个序数统计被定义为样本中的第k个最小值。
为了更好地理解这个概念,以5个随机变量X_1, X_2, X_3, X_4, X_5
为例。观察这些随机变量分布中的随机实现/结果。假设得到以下值:{4, 2, 7, 11, 5}。那么,这个实验中的第k个序数统计就是从这个集合中得到的第k个最小值。因此,第1个序数统计是2(最小值),第2个序数统计是4(次小值),依此类推。第5个序数统计是第五小的值(最大值),即11。重复这个过程多次,即从这些i.i.d随机变量的分布中抽取样本,并为每组观测值找到第k个最小值。这些值的概率分布就是第k个序数统计的分布。
一般来说,如果将随机变量X_1, X_2, ..., X_n
按升序排列,那么第k个序数统计表示为:X(k)
。注意X(k)
与X_k
不同。X_k
是集合中的第k个随机变量,而X(k)
是集合中的第k个序数统计。如果X_k
在按升序排列的实现中是第k个随机变量,那么X(k)
取X_k
的值。
第1个序数统计X(1)
是来自‘n’个随机变量实现的最小值集合。第n个序数统计X(n)
是来自‘n’个随机变量实现的最大值集合(第n个最小值)。它们可以表示为:
现在,来探讨序数统计的分布。首先描述第n个序数统计的分布,然后是第1个序数统计,最后是一般的第k个序数统计。
A) 第n个序数统计的分布:设随机变量的概率密度函数(PDF)和累积分布函数(CDF)分别为f_x(x)
和F_x(x)
。根据CDF的定义,由于随机变量是同分布的,它们具有相同的PDF f_x(x)
和CDF F_x(x)
。现在计算第n个序数统计的CDF(F_n(x)
)如下:
由于随机变量X_1, X_2, ..., X_n
也是相互独立的,因此根据独立性的性质,可以计算第n个序数统计的PDF(f_n(x)
)如下:
因此,得到了第n个序数统计的PDF和CDF的表达式。
B) 第1个序数统计的分布:随机变量的CDF也可以计算为1减去随机变量X取值大于或等于x的概率。数学上,确定第1个序数统计的CDF(F_1(x)
)如下:
再次使用随机变量的独立性属性,可以计算第1个序数统计的PDF(f_1(x)
)如下:
因此,得到了第1个序数统计的PDF和CDF的表达式。
C) 第k个序数统计的分布:对于一般的第k个序数统计,以下方程描述了其CDF(F_k(x)
):
第k个序数统计的PDF(f_k(x)
)表达式为:
为了避免混淆,将使用几何证明来理解这个方程。如前所述,这组随机变量具有相同的PDF(f_X(x)
)。下图显示了一个从随机抽样中得到的第k个序数统计的样本PDF:
因此,随机变量的PDF f_X(x)
定义在区间[a,b]之间。第k个序数统计对于一个随机样本由红线表示。其他变量实现(对于随机样本)由x轴上的小黑线表示。
图中的黄色区域(第k个序数统计和a之间的区域)恰好有(k – 1)个随机变量观测值。一个特定观测值落在这个区域的概率由随机变量的CDF(F_X(x)
)给出。但意识到(k – 1)个观测值确实落在了这个区域,这给了一个项(通过独立性)((F_X(x))^{k – 1}
)。
图中的蓝色区域(第k个序数统计和b之间的区域)恰好有(n – k)个随机变量观测值。一个特定观测值落在这个区域的概率由1减去随机变量的CDF(1– F_X(x)
)给出。但意识到(n – k)个观测值确实落在了这个区域,这给了一个项(通过独立性)((1–F_X(x))^{n – k}
)。
最后,恰好有1个观测值正好落在第k个序数统计上,概率为f_X(x)
。因此,这3个项的乘积给出了第k个序数统计PDF方程的几何意义。但是,阶乘项从何而来?上述场景只显示了众多排序中的一种。可以有许多这样的组合。这样的组合总数如下所示:
因此,所有这些项的乘积给出了第k个序数统计的一般分布。
序数统计产生了各种有用的函数。其中,值得注意的包括样本范围和样本中位数。
1) 样本范围:它定义为最大值和最小值之间的差。它表示如下:
2) 样本中位数:样本中位数将随机样本(来自随机变量集合的实现)分成两半,一半包含较低值的样本,另一半包含较高值的样本。它就像中间/中心序数统计。它在数学上定义为:
序数统计的联合PDF:联合概率密度函数可以帮助更好地理解两个随机变量(在情况下是两个序数统计)之间的关系。任何两个序数统计X(a)
和X(b)
的联合PDF,使得1 ≤ a ≤ b ≤ n,由以下方程给出:
示例:将使用一个非常简单的例子来说明序数统计的分布——标准均匀分布(U[0, 1]分布)。将取5个随机变量X_1, X_2, X_3, X_4, X_5
,它们都具有U[0, 1]分布。对于这组随机变量,将计算并绘制第1个、第3个(样本中位数)和第5个(第n个)序数统计。下图显示了U[0, 1]分布:
将如下抽取随机样本,并为每个样本找到第1个、第3个和第5个序数统计。下面显示了两个样本:
标准均匀分布的PDF和CDF如下:
将使用这些信息,并使用推导出的公式计算X(1)
、X(3)
和X(5)
。只考虑x在0和1之间的情况(对于其他情况,序数统计为零,因为PDF为零)。
Plot for f_1(x):
Plot for f_5(x):