生存分析是一个重要的统计研究方向,评估协变量对感兴趣事件发生时间的影响,广泛应用于医学、公共卫生、工程、金融等关键领域,以帮助决策和预测生存结果,识别影响生存的关键因素。Cox风险比例模型(Cox Proportional Hazards Model),又称Cox回归模型,由英国统计学家David Cox于1972年提出[1]。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。因上述优点,Cox回归模型迅速成为生存分析中最常用和最重要的工具之一,广泛应用于医学、公共卫生、流行病学、临床试验等多个领域。
以Cox模型为主流的大多数现有生存分析方法假设训练和测试数据具有相似的分布,而在现实中,由于不同中心或人群队列的异质性、不同仪器甚至不同分析方法等因素,这一假设常常并不成立。这对现有生存分析方法的泛化性和可靠性提出了严峻的挑战,尤其是在个性化医疗和药物研发等高风险应用中,这些模型的可靠性超越了简单的统计考量,成为生死攸关的重要问题。
图示:生存分析的分布外泛化场景(来源:论文)
为了应对该挑战,清华大学的崔鹏团队与国家蛋白质中心(北京)贺福初/常乘团队共同提出了一种发现稳定标志物的 Stable Cox 模型。该研究以“Stable Cox Regression for Survival Analysis under Distribution Shifts”为题,于 2024 年 12 月 13 日发布在Nature Machine Intelligence [2]。在多种癌症的组学以及临床预后数据上证明了Stable Cox可以发现在多个测试中心数据上稳定的预后标志物,该标志物可以用于对病人进行亚型分层以及生存曲线预测。
该研究提出发现稳定的预后标志物的关键是在于消除不稳定协变量与生存结果之间的虚假相关性,从而使得学习到的相关性可以代表协变量对生存概率的因果影响,这个因果影响在不同测试中心是稳定的。该研究为方法的稳定性和一致性提供了理论保证,保证其可以消除不稳定协变量的影响。
具体而言,该模型由两阶段组成:独立性驱动的样本加权和加权 Cox 回归。在独立性驱动的样本加权阶段,模型学习一套样本权重对样本进行重加权使得协变量之间相互独立。在加权的 Cox 回归阶段,Cox 模型损失中的样本被之前学到的样本权重进行重加权。这个加权后的样本损失可以有效地分离每个变量对于生存输出的效应。从理论上可以证明即使在有模型错估的情况下,Stable Cox 模型可以识别稳定变量进行预测,也就是模型在不稳定变量上的系数为 0。
图示:Stable Cox 模型框架。(来源:论文)
研究团队在三类癌症组学数据集(肝癌、乳腺癌、黑色素瘤)和两类癌症临床生存数据(肺癌、乳腺癌)上进行了广泛实验,采用多个独立测试群体和子群体,展示了此方法的强大泛化能力(平均提升 6.5%-13.9%)。此外,Stable Cox 学习得出的权重系数可用于发现潜在的组合标志物,并区分生存风险显著不同的亚型,这对于指导治疗决策和靶向药物研发具有重要意义。
图示:在肝癌、乳腺癌、⿊⾊素瘤上 Stable Cox 与其他方法在多个独立测试集上的 C-index 比较。(来源:论文)
图示:在肺癌、乳腺癌临床指标上 Stable Cox 与其他方法在多个人群、独立测试集上的 C-index 比较,以及预后亚型人群分组结果和 top10 标志物分析。(来源:论文)
结论:
1.从队列的回顾性研究中发现稳定的标志物用于前瞻性研究是机器学习方法用于实际医疗场景中的关键和难题。
2.然而,现有标志物识别技术的泛化能力较差,仅在与训练数据相似的患者样本中有效,无法应用于多样化的开放环境样本。
3.这些问题使得传统技术发现的标志物难以通过前瞻性测试,不仅导致研发资源的巨大浪费,还阻碍了医药领域的进一步发展。
4.迫切需要开发能够在异质性数据中精确识别并具有高泛化能力的生物标志物的新技术,以实现疾病的早期准确诊断,满足社会对健康保障的需求。
5.本研究提出的稳定生存分析方法旨在通过变量独立使得发现稳定预后标志物成为可能,同时该研究也将呼唤研究界重视机器学习方法在医疗等关键领域应用的稳定性和可靠性。
本文共同通讯作者是崔鹏博士和常乘博士,共同第一作者是清华范少华博士、徐韧喆博士(现为上海财经大学助理教授)、国家蛋白质科学中心(北京)博士研究生董乾。该工作得到了人体蛋白质组导航(π-HuB)国际大科学计划[3]的支持。
原文链接:https://www.nature.com/articles/s42256-024-00932-5
参考文献
[1] Cox, David R (1972). "Regression Models and Life-Tables". Journal of the Royal Statistical Society, Series B. 34 (2): 187–220.
[2] Shaohua Fan, Renzhe Xu, Qian Dong, Yue He, Cheng Chang, Peng Cui. Stable Cox regression for survival analysis under distribution shifts. Nature Machine Intelligence, 2024. https://www.nature.com/articles/s42256-024-00932-5
[3] He, F., Aebersold, R., Baker, M.S.et al. π-HuB: the proteomic navigator of the human body. Nature 636, 322–331 (2024). https://doi.org/10.1038/s41586-024-08280-5
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习