药物不良反应(Adverse Drug Reactions, ADR)给患者带来了巨大的痛苦和成本。据2013年的估计,这一成本高达301亿美元。随着时间的推移,这个数字不太可能有所下降。
随着电子病历(EMR)的普及,有了更深入分析这个问题的机会。表面上看,问题的解决方案似乎很简单:了解患者正在服用的药物,并寻找那些在患者中引起不良反应的药物。但深入研究后会发现,问题远比表面上看起来的要复杂得多。
解决这个问题的一个难点在于分析大量数据以确定药物之间的具体相互作用。这种相互作用不仅限于两种药物,还可能涉及三种或更多药物。解决这个问题需要利用机器学习技术来筛选不断变化的大量数据,并根据需要调整算法。这项任务需要大数据能力来处理人口中案例组合爆炸式增长的情况。此外,这种分析还需要包括广泛的个人特征。
例如,有理由相信药物A、B和C在15%的人群中会引起不良反应。那么,这15%不应该服用该药物的人群的特征是什么?可能存在数百种特征,这些特征可能或不可能对效果产生影响。容易识别的是性别、种族、肥胖等特征。更难的是与时间相关的变量,如服用药物的时间长度,或患有特定疾病的时间长度。再次,这些组合导致了一个庞大的数据集,不仅在观察数量上,也在变量数量上。从Excel电子表格的角度来看,这个数据集既长又宽。这种情况需要巨大的计算能力。解决这个问题的方法可能不在于关系数据库技术,而可能更适合于图形和空间数据库。
问题的另一部分是识别何时发生了ADR。如何知道ADR发生了?识别ADR需要知道患者有特定的症状。这些症状通常包含在治疗记录的文本中。因此,找到并识别ADR将涉及到某种形式的文本分析。创建一个词汇索引及其与其他词汇的接近程度,并测试它们是否指示ADR,这既是一个大数据问题,也是一个机器学习问题。它涉及到查看提供者的记录并确定哪些词汇是ADR指标。这种分析将涉及开发和调整学习和测试模型。此外,希望优化这些模型以控制假阳性,这可能导致患者无法获得可能对他们有帮助的药物。
电子病历为ADR领域提供了比目前更复杂的分析机会。这是一个成本高昂且至关重要的问题。ADR涉及药物与其他药物以及患者特征之间的相互作用的研究。这些复杂的相互作用需要同时保留大量的数据。Hana提供了这种能力。它还提供了使用关系模型、文档和图形数据库模型的灵活性。其搜索功能可以允许进行文本分析。AWS SageMaker提供了应用机器学习来识别和完善检测ADR模型的能力。
为了解决ADR问题,需要一个综合的解决方案,该方案结合了大数据、机器学习和先进的数据库技术。以下是一些关键步骤: