生存分析是一种统计方法,用于分析在特定时间段内事件发生前的数据集。例如,分析一个人在多少年内可能患上糖尿病或心脏病的风险,就是生存分析的一个典型应用。生存分析在制药行业尤其常用。
在之前的文章中,已经讨论了生存分析的用例以及非参数和半参数生存分析。为了更好地理解本文,建议先阅读这些文章。本文将介绍以下内容:
首先,来理解不同类型的生存分析之间的区别。生存分析与传统的回归和分类问题模型不同,因为它模拟了两个不同的参数。为了详细了解生存分析,可以参考之前的文章。然而,在本文中,也会讨论这三种分析类型之间的区别。
在参数模型中,假设生存曲线的分布。在拟合模型之前,需要知道生存曲线的形状以及最适合这种形状的函数。为此,需要构建一个非参数模型,并了解风险函数和生存曲线的形状。
在进行生存分析时,通常假设以下五种分布类型。这些分布的名称来自于失败函数的概率分布类型。以下是通常在参数模型中使用的五种概率分布曲线。每种分布都在下面详细解释:
对于这些分布,首先需要理解以下图表:
通过积分风险函数方程,得到以下方程:
在每种情况下,将参考以下两个图表(这些是选择分布的重要图表):
当故障风险随时间显著增加时,假设这种类型的分布。因此,故障概率突然增加。
均匀分布在现实世界中不常见。生存曲线是从100%到0%的直线。风险函数呈指数增长,迫使每个观察值在结束时死亡。
指数分布是生存模型中常见的假设之一。风险函数不随时间变化。这种分布在人类自然死亡的情况下可以假设,其中速率在时间上变化不大。
威布尔分布有一个参数gamma,可以优化以获得不同分布的风险函数。以下是一些将说明同样情况的场景:
从多种场景中可以看出,gamma可以改变威布尔风险函数从急剧下降到恒定函数再到加速增加。因此,它适合实际世界中的多种情况。
这是另一种可以优化以适应不同风险函数的分布。对数正态分布可以与威布尔分布互补,以模拟几乎所有场景。
要了解应用,让回顾一下生存分析的使用案例,并根据预期的分布拟合最佳曲线。
作业:在查看答案之前,尝试在每种情况下找到最佳拟合分布。
因为创新不偏向任何特定原因,风险函数是一条恒定线。因此,以下是风险函数、生存函数和概率分布函数:
癌症随着时间的推移而恶化,因此生存率更快地恶化。以下是风险函数、生存函数和概率分布函数:
每当有恶化的冲击影响时。例如:手术后患者的状况,其中不利的风险随时间降低。以下是风险函数、生存函数和概率分布函数:
像猪流感或结核病这样的疾病有急剧的影响。如果患者能在这些疾病的初期存活下来,随着时间的推移,死亡的危险逐渐减少。以下是风险函数、生存函数和概率分布函数:
现在让思考每种情况下哪种分布最合适: