生存分析及其应用

生存分析是一种统计方法,用于分析在特定时间段内事件发生前的数据集。例如,分析一个人在多少年内可能患上糖尿病或心脏病的风险,就是生存分析的一个典型应用。生存分析在制药行业尤其常用。

在之前的文章中,已经讨论了生存分析的用例以及非参数和半参数生存分析。为了更好地理解本文,建议先阅读这些文章。本文将介绍以下内容:

  • 参数分析的基础知识,以从生存分析中得出详细且可操作的洞察。
  • 如何在参数生存模型中找到合适的分布?
  • 参数生存模型中使用的不同函数及其应用。

首先,来理解不同类型的生存分析之间的区别。生存分析与传统的回归和分类问题模型不同,因为它模拟了两个不同的参数。为了详细了解生存分析,可以参考之前的文章。然而,在本文中,也会讨论这三种分析类型之间的区别。

在参数模型中,假设生存曲线的分布。在拟合模型之前,需要知道生存曲线的形状以及最适合这种形状的函数。为此,需要构建一个非参数模型,并了解风险函数和生存曲线的形状。

参数模型中使用的生存/风险函数分布类型

在进行生存分析时,通常假设以下五种分布类型。这些分布的名称来自于失败函数的概率分布类型。以下是通常在参数模型中使用的五种概率分布曲线。每种分布都在下面详细解释:

  • 正态分布
  • 均匀分布
  • 指数分布
  • 威布尔分布
  • 对数正态分布

对于这些分布,首先需要理解以下图表:

  1. 寿命分布函数(F):这是在时间“T”之前发生故障的概率。
  2. 寿命概率分布(f):F的微分将给概率分布。所有分布函数的名称都基于这个概率分布。
  3. 生存函数(S):生存是寿命的倒数。它是一减去寿命分布。
  4. 风险函数(Lambda):风险函数是事件发生的速率。风险函数可以从生存函数推导出来,如下所示:
  5. 累积风险函数:这只是风险函数的积分,如下所示:

通过积分风险函数方程,得到以下方程:

在每种情况下,将参考以下两个图表(这些是选择分布的重要图表):

  • 风险函数
  • 生存函数

当故障风险随时间显著增加时,假设这种类型的分布。因此,故障概率突然增加。

均匀分布在现实世界中不常见。生存曲线是从100%到0%的直线。风险函数呈指数增长,迫使每个观察值在结束时死亡。

指数分布是生存模型中常见的假设之一。风险函数不随时间变化。这种分布在人类自然死亡的情况下可以假设,其中速率在时间上变化不大。

威布尔分布有一个参数gamma,可以优化以获得不同分布的风险函数。以下是一些将说明同样情况的场景:

从多种场景中可以看出,gamma可以改变威布尔风险函数从急剧下降到恒定函数再到加速增加。因此,它适合实际世界中的多种情况。

这是另一种可以优化以适应不同风险函数的分布。对数正态分布可以与威布尔分布互补,以模拟几乎所有场景。

生存分析的应用

要了解应用,让回顾一下生存分析的使用案例,并根据预期的分布拟合最佳曲线。

作业:在查看答案之前,尝试在每种情况下找到最佳拟合分布。

因为创新不偏向任何特定原因,风险函数是一条恒定线。因此,以下是风险函数、生存函数和概率分布函数:

癌症随着时间的推移而恶化,因此生存率更快地恶化。以下是风险函数、生存函数和概率分布函数:

每当有恶化的冲击影响时。例如:手术后患者的状况,其中不利的风险随时间降低。以下是风险函数、生存函数和概率分布函数:

像猪流感或结核病这样的疾病有急剧的影响。如果患者能在这些疾病的初期存活下来,随着时间的推移,死亡的危险逐渐减少。以下是风险函数、生存函数和概率分布函数:

每个案例的合适分布

现在让思考每种情况下哪种分布最合适:

  • 案例1:指数和威布尔都可以用于这种情况,因为风险函数是一条恒定曲线。
  • 案例2:可以使用gamma = 2的威布尔函数,因为风险函数是一条线性增加的曲线。
  • 案例3:这是本文的作业。不会在本文中找到直接答案,但有了良好的基础理解,应该能够解决这个问题。
  • 案例4:这是使用对数正态分布的经典案例。风险函数显示了一个峰值,因此对数正态分布,sigma小于1,适合这种情况。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485