序数统计学概念解析

序数统计是统计学中一个非常有用的分支，它在诸如拍卖模型、赛车比赛和保险政策等多个领域都有广泛的应用。本文将逐步介绍序数统计的概念，包括其含义、分布以及更高级的概念。

假设有一组随机变量X_1, X_2, ..., X_n，它们是相互独立且同分布的（i.i.d）。独立意味着一个随机变量的取值不受其他随机变量取值的影响，同分布则意味着这些随机变量具有相同的概率密度函数（PDF）或累积分布函数（CDF）。对于这组随机变量，第k个序数统计被定义为样本中的第k个最小值。

为了更好地理解这个概念，以5个随机变量X_1, X_2, X_3, X_4, X_5为例。观察这些随机变量分布中的随机实现/结果。假设得到以下值：{4, 2, 7, 11, 5}。那么，这个实验中的第k个序数统计就是从这个集合中得到的第k个最小值。因此，第1个序数统计是2（最小值），第2个序数统计是4（次小值），依此类推。第5个序数统计是第五小的值（最大值），即11。重复这个过程多次，即从这些i.i.d随机变量的分布中抽取样本，并为每组观测值找到第k个最小值。这些值的概率分布就是第k个序数统计的分布。

一般来说，如果将随机变量X_1, X_2, ..., X_n按升序排列，那么第k个序数统计表示为：X(k)。注意X(k)与X_k不同。X_k是集合中的第k个随机变量，而X(k)是集合中的第k个序数统计。如果X_k在按升序排列的实现中是第k个随机变量，那么X(k)取X_k的值。

第1个序数统计X(1)是来自‘n’个随机变量实现的最小值集合。第n个序数统计X(n)是来自‘n’个随机变量实现的最大值集合（第n个最小值）。它们可以表示为：

现在，来探讨序数统计的分布。首先描述第n个序数统计的分布，然后是第1个序数统计，最后是一般的第k个序数统计。

A) 第n个序数统计的分布：设随机变量的概率密度函数（PDF）和累积分布函数（CDF）分别为f_x(x)和F_x(x)。根据CDF的定义，由于随机变量是同分布的，它们具有相同的PDF f_x(x)和CDF F_x(x)。现在计算第n个序数统计的CDF（F_n(x)）如下：

由于随机变量X_1, X_2, ..., X_n也是相互独立的，因此根据独立性的性质，可以计算第n个序数统计的PDF（f_n(x)）如下：

因此，得到了第n个序数统计的PDF和CDF的表达式。

B) 第1个序数统计的分布：随机变量的CDF也可以计算为1减去随机变量X取值大于或等于x的概率。数学上，确定第1个序数统计的CDF（F_1(x)）如下：

再次使用随机变量的独立性属性，可以计算第1个序数统计的PDF（f_1(x)）如下：

因此，得到了第1个序数统计的PDF和CDF的表达式。

C) 第k个序数统计的分布：对于一般的第k个序数统计，以下方程描述了其CDF（F_k(x)）：

第k个序数统计的PDF（f_k(x)）表达式为：

为了避免混淆，将使用几何证明来理解这个方程。如前所述，这组随机变量具有相同的PDF（f_X(x)）。下图显示了一个从随机抽样中得到的第k个序数统计的样本PDF：

因此，随机变量的PDF f_X(x)定义在区间[a,b]之间。第k个序数统计对于一个随机样本由红线表示。其他变量实现（对于随机样本）由x轴上的小黑线表示。

图中的黄色区域（第k个序数统计和a之间的区域）恰好有(k – 1)个随机变量观测值。一个特定观测值落在这个区域的概率由随机变量的CDF（F_X(x)）给出。但意识到(k – 1)个观测值确实落在了这个区域，这给了一个项（通过独立性）（(F_X(x))^{k – 1}）。

图中的蓝色区域（第k个序数统计和b之间的区域）恰好有(n – k)个随机变量观测值。一个特定观测值落在这个区域的概率由1减去随机变量的CDF（1– F_X(x)）给出。但意识到(n – k)个观测值确实落在了这个区域，这给了一个项（通过独立性）（(1–F_X(x))^{n – k}）。

最后，恰好有1个观测值正好落在第k个序数统计上，概率为f_X(x)。因此，这3个项的乘积给出了第k个序数统计PDF方程的几何意义。但是，阶乘项从何而来？上述场景只显示了众多排序中的一种。可以有许多这样的组合。这样的组合总数如下所示：

因此，所有这些项的乘积给出了第k个序数统计的一般分布。

序数统计产生了各种有用的函数。其中，值得注意的包括样本范围和样本中位数。

1) 样本范围：它定义为最大值和最小值之间的差。它表示如下：

2) 样本中位数：样本中位数将随机样本（来自随机变量集合的实现）分成两半，一半包含较低值的样本，另一半包含较高值的样本。它就像中间/中心序数统计。它在数学上定义为：

序数统计的联合PDF：联合概率密度函数可以帮助更好地理解两个随机变量（在情况下是两个序数统计）之间的关系。任何两个序数统计X(a)和X(b)的联合PDF，使得1 ≤ a ≤ b ≤ n，由以下方程给出：

示例：将使用一个非常简单的例子来说明序数统计的分布——标准均匀分布（U[0, 1]分布）。将取5个随机变量X_1, X_2, X_3, X_4, X_5，它们都具有U[0, 1]分布。对于这组随机变量，将计算并绘制第1个、第3个（样本中位数）和第5个（第n个）序数统计。下图显示了U[0, 1]分布：

将如下抽取随机样本，并为每个样本找到第1个、第3个和第5个序数统计。下面显示了两个样本：

标准均匀分布的PDF和CDF如下：

将使用这些信息，并使用推导出的公式计算X(1)、X(3)和X(5)。只考虑x在0和1之间的情况（对于其他情况，序数统计为零，因为PDF为零）。

Plot for f_1(x): Plot for f_5(x):

数据科学项目生命周期解析

本文详细解析了数据科学项目的生命周期，包括业务问题理解、数据收集、数据准备、数据建模和模型部署等关键步骤。

深度学习及其监督学习算法

本文介绍了深度学习的基本概念、工作原理以及监督学习算法的类型和应用。

序数统计学概念解析

数据科学项目生命周期解析

深度学习及其监督学习算法

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

序数统计学概念解析

数据科学项目生命周期解析

深度学习及其监督学习算法

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485