专栏名称: 生信宝典

生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程；高通量测序数据分析学习教程；生信软件安装教程。所有内容均为原创分享，致力于从基础学习到提高整个过程。

Nature子刊|国家蛋白质科学中心（北京）贺福初/常乘团队等合作研发多中心、大队列“稳定”预后标志物筛选模型

生信宝典 · 公众号 · 生物 · 2024-12-27 21:00

主要观点总结

本文介绍了生存分析的重要性及其在实际应用中的挑战，特别是现有生存分析方法在异质性数据中的局限性。文章重点介绍了清华大学的崔鹏团队与国家蛋白质中心贺福初/常乘团队共同提出的Stable Cox模型，该模型旨在发现稳定的预后标志物，并消除不稳定协变量与生存结果之间的虚假相关性。文章还介绍了该模型在多种癌症组学以及临床预后数据上的实验验证，展示了其强大的泛化能力。

关键观点总结

关键观点1: 生存分析是统计研究的重要方向，广泛应用于医学、公共卫生等领域，帮助决策和预测生存结果。

Cox回归模型是生存分析中最常用和最重要的工具之一，但现有方法面临训练和测试数据分布不一致的挑战。

关键观点2: Stable Cox模型由清华大学的崔鹏团队提出，旨在消除不稳定协变量与生存结果之间的虚假相关性，发现稳定的预后标志物。

该模型通过独立性驱动的样本加权和加权Cox回归两个阶段，学习稳定的预后标志物，并消除不稳定协变量的影响。

关键观点3: Stable Cox模型在多种癌症组学数据集和临床生存数据上进行了广泛实验，展示了强大的泛化能力，平均提升6.5%-13.9%。

该模型还可用于发现潜在的组合标志物，并区分生存风险不同的亚型，对治疗决策和靶向药物研发具有重要意义。

正文

请到「今天看啥」查看全文

本文转载自公众号 《人体蛋白质组导航计划》

生存分析是一个重要的统计研究方向，评估协变量对感兴趣事件发生时间的影响，广泛应用于医学、公共卫生、工程、金融等关键领域，以帮助决策和预测生存结果，识别影响生存的关键因素。Cox风险比例模型（Cox Proportional Hazards Model），又称Cox回归模型，由英国统计学家David Cox于1972年提出[1]。该模型以生存结局和生存时间为因变量，可同时分析众多因素对生存期的影响，能分析带有截尾生存时间的资料，且不要求估计资料的生存分布类型。因上述优点，Cox回归模型迅速成为生存分析中最常用和最重要的工具之一，广泛应用于医学、公共卫生、流行病学、临床试验等多个领域。

以Cox模型为主流的大多数现有生存分析方法假设训练和测试数据具有相似的分布 ，而在现实中，由于不同中心或人群队列的异质性、不同仪器甚至不同分析方法等因素，这一假设常常并不成立。这对现有生存分析方法的泛化性和可靠性提出了严峻的挑战，尤其是在个性化医疗和药物研发等高风险应用中，这些模型的可靠性超越了简单的统计考量，成为生死攸关的重要问题。

图示：生存分析的分布外泛化场景（来源：论文）

为了应对该挑战，清华大学的崔鹏团队与国家蛋白质中心（北京） 贺福初/常乘 团队共同提出了 一种发现稳定标志物的 Stable Cox 模型 。该研究以 “Stable Cox Regression for Survival Analysis under Distribution Shifts” 为题，于 2024 年 12 月 13 日发布在 Nature Machine Intelligence [2]。在多种癌症的组学以及临床预后数据上证明了Stable Cox可以发现在多个测试中心数据上稳定的预后标志物，该标志物可以用于对病人进行亚型分层以及生存曲线预测。

该研究提出发现稳定的预后标志物的关键是在于消除不稳定协变量与生存结果之间的虚假相关性，从而使得学习到的相关性可以代表协变量对生存概率的因果影响，这个因果影响在不同测试中心是稳定的。该研究为方法的稳定性和一致性提供了理论保证，保证其可以消除不稳定协变量的影响。

具体而言，该模型由两阶段组成：独立性驱动的样本加权和加权 Cox 回归。在独立性驱动的样本加权阶段，模型学习一套样本权重对样本进行重加权使得协变量之间相互独立。在加权的 Cox 回归阶段，Cox 模型损失中的样本被之前学到的样本权重进行重加权。这个加权后的样本损失可以有效地分离每个变量对于生存输出的效应。从理论上可以证明即使在有模型错估的情况下，Stable Cox 模型可以识别稳定变量进行预测，也就是模型在不稳定变量上的系数为 0。

图示：Stable Cox 模型框架。（来源：论文）

研究团队在三类癌症组学数据集（肝癌、乳腺癌、黑色素瘤）和两类癌症临床生存数据（肺癌、乳腺癌）上进行了广泛实验，采用多个独立测试群体和子群体，展示了此方法的强大泛化能力（平均提升 6.5%-13.9%）。此外，Stable Cox 学习得出的权重系数可用于发现潜在的组合标志物，并区分生存风险显著不同的亚型，这对于指导治疗决策和靶向药物研发具有重要意义。

图示：在肝癌、乳腺癌、⿊⾊素瘤上 Stable Cox 与其他方法在多个独立测试集上的 C-index 比较。（来源：论文）

图示：在肺癌、乳腺癌临床指标上 Stable Cox 与其他方法在多个人群、独立测试集上的 C-index 比较，以及预后亚型人群分组结果和 top10 标志物分析。（来源：论文）

结论：

1.从队列的回顾性研究中发现稳定的标志物用于前瞻性研究是机器学习方法用于实际医疗场景中的关键和难题。

2.然而，现有标志物识别技术的泛化能力较差，仅在与训练数据相似的患者样本中有效，无法应用于多样化的开放环境样本。

3.这些问题使得传统技术发现的标志物难以通过前瞻性测试，不仅导致研发资源的巨大浪费，还阻碍了医药领域的进一步发展。

4.迫切需要开发能够在异质性数据中精确识别并具有高泛化能力的生物标志物的新技术，以实现疾病的早期准确诊断，满足社会对健康保障的需求。

5.本研究提出的稳定生存分析方法旨在通过变量独立使得发现稳定预后标志物成为可能，同时该研究也将呼唤研究界重视机器学习方法在医疗等关键领域应用的稳定性和可靠性。

本文共同通讯作者是崔鹏博士和常乘博士，共同第一作者是清华 范少华 博士、 徐韧喆 博士（现为上海财经大学助理教授）、国家蛋白质科学中心（北京）博士研究生董乾。 该工作得到了人体蛋白质组导航（π-HuB）国际大科学计划[3]的支持。

原文链接: https://www.nature.com/articles/s42256-024-00932-5

参考文献

[1] Cox, David R (1972). "Regression Models and Life-Tables". Journal of the Royal Statistical Society, Series B. 34 (2): 187–220.

[2] Shaohua Fan, Renzhe Xu, Qian Dong, Yue He, Cheng Chang, Peng Cui. Stable Cox regression for survival analysis under distribution shifts. Nature Machine Intelligence, 2024. https://www.nature.com/articles/s42256-024-00932-5

[3] He, F., Aebersold, R., Baker, M.S.et al. π-HuB: the proteomic navigator of the human body. Nature 636, 322–331 (2024). https://doi.org/10.1038/s41586-024-08280-5

高颜值免费 SCI 在线绘图 ( 点击图片直达 )

最全植物基因组数据库IMP ( 点击图片直达 )

往期精品 ( 点击图片直达文字对应教程 )

机器学习