人工智能在药物发现中的应用

在这篇博客中,将深入探讨人工智能(AI)与药物发现过程的交汇点,特别是数据机器人(DataRobot)和团队在这个领域所扮演的重要角色。目标是解决那些非标准化的问题,这不仅让从中学习,还允许跨职能地与产品和工程团队合作,将这些解决方案整合到DataRobot平台中,推动AI创新的边界。在这篇文章中,将通过一个例子来探讨在这一领域所做的工作,即如何将传统的生存分析方法与现代的机器学习技术相结合,以提高可解释性,提高预测患者不良健康事件的准确性,并缩短药物上市时间。

药物发现过程

研究患者对特定药物在整个治疗过程中的反应对于理解治疗如何影响疾病进展和生活质量至关重要。这些研究可能持续几周、几个月甚至几年,通常是任何药物发现过程中最长、最昂贵的部分。双盲、安慰剂对照研究是进行这些研究的最佳和最可靠的方式。顾名思义,这项研究选择了两组患者,一组给予安慰剂,另一组给予药物。

在整个研究过程中,会定期进行测量,随后进行风险评估分析。在这种风险分析中,通常感兴趣的是了解一个人的风险因素(年龄、体重、种族、性别、过去的健康状况等)如何影响感兴趣的结果,这些结果通常是:疾病发生/复发或无进展生存的时间。

生存分析:临床试验中患者的风险评估

生存分析是用于在临床试验中进行此类风险评估的一组方法。它对应于一组统计方法,用于调查感兴趣事件所需的时间,例如,患者在接受一系列治疗后能活多少个月?虽然这篇博客讨论的是药物发现,但生存分析可以用于任何感兴趣的“事件发生时间”的设置。例如,还可以使用它来估计像客户将在电信提供商处停留多长时间、一个人违约贷款需要多长时间、制造产品失败需要多长时间、估计网络用户何时会点击广告链接等。在这种设置中,一个主要问题是在特定时间点发生事件结果不可观察的实例,或者在监测期间没有经历任何事件的实例。使用生存分析方法,这种所谓的

Censoring

可以最有效地处理。

通过机器学习进行生存分析:好处

Cox比例风险模型(及其相关变体)是生存分析中最常用的模型之一。在任何给定时间的事件概率被表示为特征(协变量)的线性组合的函数。Cox比例风险模型有几个局限性。简单的线性模型无法捕捉每个特征内的复杂模式和特征之间的相互作用。其比例风险假设在现实世界中很容易被违反。例如,在临床研究中,如果男性比女性风险高10%,模型假设这种10%在整个研究时间内保持不变。这种假设是不现实的,因为性别的影响可能随着时间的推移对总体风险评分有不同的影响。

将问题框架化为二元分类

由于其“事件发生或不发生”的性质,生存问题可以被框架化为二元分类问题,并由机器学习算法解决。机器学习算法可以识别特征(协变量)之间的复杂模式和相互作用,而不受上述Cox模型的比例风险假设的限制。原始数据可以通过跟踪每个患者在离散时间间隔(以下示例中为3个月)的“患者-时间”级别进行转换:

Gennetech在2018年发表了一篇基于其Atezolizumab药物试验的论文,该论文发表在《自然》杂志上,该药物延长了广泛阶段小细胞肺癌治疗的生存期。

生物背景:

PD-1

是一种I型膜蛋白,表达在许多白细胞表面,如活化的T细胞、B细胞和巨噬细胞,这表明PD-1更广泛地负向调节免疫反应。PD-L1是PD-1的配体,在几种癌症中高度表达,PD-1在癌症免疫逃逸中的作用已经得到了很好的确立。阻断程序性死亡配体1(PD-L1)/程序性死亡1(PD-1)途径的治疗性抗体可以在各种癌症患者中诱导出强大和持久的反应,包括转移性尿路上皮癌(mUC)。然而,这些反应只发生在一部分患者中。识别反应和抗性的决定因素是改善结果和开发新治疗策略的关键。在这里,检查了用抗-PD-L1剂(atezolizumab)治疗的大量mUC患者的肿瘤,并确定了临床结果的主要决定因素。

计算复杂性:

问题在于上述描述的生存分析,结果措施为总生存和无进展生存。复杂性来自于在403名患者中进行了多中心、双盲、安慰剂对照试验,拥有40,000个特征(其中32,000个是基因组特征)。基本上,有大约400个观测值,但有40,000个特征。少数观测值和大量特征,或者在机器学习中所说的

p>>n

问题。

问题1:

特征选择,特别是当目标不是准确性,而是识别与死亡率(或其他事件)相关的罕见基因组变异时。

问题2:

处理不同基于基因表达的特征之间的极端多重共线性。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485