专栏名称: 基因慧

基因慧官方订阅号：精准医疗行业信息和知识服务平台。姊妹公众号“基因慧PPT”。官网 www.geneclub.net.cn。联络我们 [email protected]

阿斯利康基因组学研究中心基于近50万份组学样本发布疾病预测AI开源模型

基因慧 · 公众号 · 医学 · 2024-09-27 16:00

主要观点总结

近日，阿斯利康基因组学研究中心与合作伙伴基于近50万份基因组测序样本和近5万份蛋白质组学数据开发了疾病预测AI开源模型MILTON，并发表在《自然-遗传学》上。MILTON利用纵向电子病历和生物标记物数据，以67种数量性状作为参数，对3000余种疾病进行预测，准确率高于临床上常用的多基因风险评分（PRS）。文章详细阐述了MILTON模型的开发背景、性能验证、专家点评及意义。

关键观点总结

关键观点1: 疾病预测AI开源模型MILTON的开发背景

基于大规模人群队列的多组学数据，阿斯利康基因组学研究中心开发了疾病预测AI开源模型MILTON，旨在利用生物标志物进行疾病预测。

关键观点2: MILTON模型的技术特点

MILTON是一个集成式机器学习模型，基于纵向时间序列的电子病历数据信息和生物标记物，使用67种数量性状进行训练。它可以在3000多种疾病上进行预测，整体准确率高于PRS。

关键观点3: MILTON模型的性能验证

通过对MILTON模型的性能验证，结果显示其用于疾病预测的性能优于PRS。此外，MILTON还成功在疾病发生前进行预测，并提升了一部分疾病的预测性能。

关键观点4: MILTON模型的应用前景

MILTON模型的应用前景广阔，可部署到其他生物样本库队列中预测疾病。此外，它将有助于发现新的基因-疾病关联，并为下游机制探索提供重要线索。

关键观点5: 专家对MILTON模型的点评

多位专家对MILTON模型表示肯定，认为其在疾病预测领域具有重大意义，同时强调了多组学数据在疾病预测中的潜力以及人工智能在生命科学领域的重要性。

正文

近日，基于近50万份基因组测序样本以及近5万份蛋白质组学数据，阿斯利康基因组学研究中心与合作伙伴开发了疾病预测AI开源模型 MILTON ，发表在《自然-遗传学》(Natur e Genetics)上。MILTON 基于纵向电子病历和生物标记物数据，以 67 种数量性状作为参数，对3000余种疾病进行预测，整体准确率高于临床上常用的多基因风险评分（PRS）。

一、利用多种生物标志物联合预测健康/疾病状态的集成机器学习模型 MILTON

图1： MILTON模型简介

（来源/阿斯利康全球研发副总裁、基因组学研究中心主任 Slave Petrovski (裴思惟)）

传统的表型关联分析（例如 PheWAS工具）依靠国际疾病分类（ ICD-10）的注释进行疾病诊断，其中存在漏诊未确诊疾病（即隐匿病例）的可能。文章第一作者——阿斯利康基因组学研究中心的高级数据科学家Manik Garg表示，我们想探索是否可以根据与已确诊患者共享的生物标志物特征来识别隐匿病例。我们通过血液和尿液的生物标志物以及其他生理性状和生活习惯参数，针对3,000多种疾病建立预测模型（包括发病前和发病后） MILTON 。该模型通过病历的对照重分析，能够检测到新的遗传关联信号，结果超过传统表型关联分析的性能。

MILTON 是一种利用多种生物标志物联合预测疾病的集成式机器学习开源模型，基于纵向时间序列的电子病历数据信息和生物标记物，以 67 种数量性状（包括血液化学、尿液分析、肺量计、血压、体型、性别、年龄和禁食时间等指标）训练模型，在484,230份基因组测序样本以及46,327个蛋白质组学样本中进行全表型组关联分析验证（未来也可扩展到转录组和代谢组学数据上）。

阿斯利康基因组学研究中心资深科学家楼海一博士 表示，该工具不仅从英国生物样本库 (UKB) 结构化数据中学习表型的贡献率，还可以根据UKB的性状数据来拟合模型并预测疾病与健康状态。理论上MILTON可以部署到其他生物样本库队列中来预测疾病。

图2：MILTON模型的流程图

（来源/Nature Genetics）

MILTON成果平台：

http://milton.public.cgr.astrazeneca.com/

代码等资源共享地址：

https://github.com/astrazeneca-cgr-publications/milton-release

https://zenodo.org/records/13149004

关于MILTON模型的性能，我们邀请了来自普瑞基准的季序我博士进行了详细介绍和解读。

二、MILTON模型的性能

图3： MILTON 性能验证，以及与添加蛋白组学数据、PRS 数据的对比。

（来源/ Nature Genetics ）

（1）MILTON 用于疾病预测的性能优于PRS

67种特征用于训练 MILTON，包括：30 种血液生化指标、20 种血液计数指标、4 种尿液检测指标、3 种呼吸测量指标、4 种体型测量指标、3 种血压测量指标、性别、年龄和测量前空腹时长。

以受试者操作特征（ROC）曲线下面积（area under the curve，简称 AUC）作为性能衡量指标，诊断、预后和混合三种模型的 AUC 在 60-70% 左右。对于三种时间模型都可及的 1466 种疾病类型，诊断模型比预后和混合模型稍好。随着病例数提升，AUC、敏感性和特异性在欧洲和非洲祖源人群中没有显著变化，在南亚人群中有提升。

针对151 种疾病中，基于 67 种特征训练的诊断模型的预测性能对于其中的 111 种疾病显著高于多基因风险评分（polygenic risk scores，简称 PRS）训练模型，预后和混合这两种模型类似。对于乳腺癌、黑色素瘤和前列腺癌三种疾病，PRS在三种模型上相对更为显著，可能因为 MILTON 涵盖的血液和尿液生物标志物对这几种实体瘤的预测功效较差。

（2）MILTON成功在疾病发生前预测疾病

为了评估 MILTON 预测真实病例的有效性，研究者以 2018 年 1 月 1 号之前的样本用作训练数据，预测这个时间点之后的样本。结果显示，MILTON对1740 种疾病的 1695 种显著富集，展示出 MILTON 的疾病风险预测能力。

（3）蛋白质组学数据提升针对部分疾病的预测性能

对于 UKB 人群中有 2923 种蛋白数据的 46327 个人的样本，单独使用蛋白质组学数据（3k proteins）或和 67 种生物标志物（67 traits）结合使用，重新对 MILTON建模，能够带来小幅度的性能提升（中位AUC 0.68 vs. 0.65）。不同表型提升幅度不同，对包括多种骨髓瘤和恶性浆细胞肿瘤、前列腺癌、脊髓性肌萎缩症在内的疾病预测性能显著提升。这些结果提示了蛋白组学特征对于某些疾病的预测有特别的价值。

（4）MILTON 鉴定出有预测功效的显著标记物，并进行疾病聚类

研究者进一步研究发现，对于每一种疾病的多种相关生物标志物中， MILTON 赋予了其中至少一个相对较高的“特征重要性评分”。例如，对于一型糖尿病，糖化血红蛋白和血糖是特征重要性评分较高的两种标志物，这两种标志物在临床诊断中也被使用，符合预期。

基于这种情况，研究人员探索了能表征特定疾病类型最少的特征，对于每种疾病鉴定了 7-8 个最重要的特征，作为显著标记物（signature）。如果该疾病类型的样本包含蛋白组数据，则只需要约5-6 种特征构成显著标记物（ sig nature）。将所有疾病类型按相似的显著标记物（ sig nature）富集，可以展示各疾病间的相似性。

（5）基于MILTON 预测新增的阳性病例，赋能PheWAS 揭示新的基因-疾病关联

基于上文提到的“潜在对照组”，MILTON 预测出新的阳性病例，并形成了新的扩展阳性组。基于欧洲人群的扩增样本的全基因组（WGS）进行稀有变异重分析，得到了 2905 个新的显著的疾病和基因关联。显示出MILTON 加强了PheWAS 的分析能力，特别是乳腺癌相关的已知标志物分析。

（6）MILTON 扩展人群的 ExWAS 分析

类似PheWAS（表型组关联分析），研究人员对于 MILTON 预测得到的扩展人群在变异水平进行ExWAS （exome-wide association study，外显子组关联分析）。基线中的8013 个变异-疾病关联，78.88%（6321 个）在 MILTON 扩展人群中仍然显著；在MILTON 扩展人群新发现的9881 个关联中，61.94% 相比基线人群更为显著。

对于MILTON ExWAS 分析中鉴定得到的显著关联，研究人员进一步将结果和 FinnGen Biobank 中变异水平的富集结果进行比较，发现重叠部分中54.76% 达到了显著水平（p<0.0.5）。对于通过 GWAS（全基因组关联分析）得到的常见变异-疾病类型关联，进一步分析了其中 14 种疾病类型，93.10% 的关联有同向的效果。

三、专家点评

阿斯利康基因组学研究中心总监田立峰博士 接受基因慧采访，从生物样本库分析应用现状发现，人类基因组学研究在不同群体的健康公平性方面还存在显著不足。截至2021年，86%的基因组学研究集中在欧洲血统的人群上，而针对代表性不足群体的研究比例则停滞不前甚至下降。此外，一些重要的临床变异仅在未被充分代表的群体中发现，这表明更多的遗传变异和疾病机制尚未被发现。为确保精准医学发展，同时让所有人受益并遵循最高的科学与伦理标准，我们需要在全球范围内增强多组学研究的多样性和包容性。

田博士表示，我们期待包括MILTON开源框架等一系列创新的人工智能大数据模型能够在多组学平台上部署，成为连接数据与健康的桥梁，助力源头创新药物发现和精准医疗的快速发展，为人类的健康事业贡献更大的力量。我们相信，通过不断优化和扩展生物信息平台，深化与中国研究机构和医院的合作，将能够在多组学研究和创新药物研发方面取得更多突破。我们致力于将先进的基因组研究成果转化为实际的临床应用，造福全球患者。

昌平实验室赵亚杰教授 对基因慧讲到，如何提前预测个体的疾病风险一直以来都是生命科学领域所关注的重要方向，当前随着包含有多组学数据的大规模人群队列的不断涌现，也为系统性地探索可以预测疾病风险的指标以及算法提供了可能。来自阿斯利康基因组研究中心的研究团队利用来自英国生物银行的多组学数据结合先进的机器学习算法对超过三千种的疾病进行了风险预测建模，体现了利用常见生物标志物以及多组学数据进行疾病预测的巨大潜力。同时基于算法所识别出来的潜在病例的全基因组关联分析也找到了一系列潜在相关基因，为下游机制探索提供了重要线索。

星云基因刘志岩博士谈到， 随着大规模人群队列中多组学数据的井喷式增长，精准疾病风险预测模型的研发迎来了前所未有的机遇。阿斯利康基因组研究中心基于UKB超50万人次的多组学数据开发了MILTON框架，对超过三千种疾病建立了精准的疾病风险诊断与预测模型，是多组学数据价值挖掘与应用的典范。

刘志岩博士表示，近年来我国人群队列发展迅猛，产生海量多组学数据，但缺乏先进的数据管理与分析体系，严重限制了数据价值的充分挖掘与应用。星云基因将在其组学大数据管理与分析云平台上部署MILTON框架，为我国的大规模人群队列以及相关研究团队提供数据管理与分析服务，助力研发适用于中国人群的疾病风险预测模型。

复旦大学索晨副教授