机器学习与多组学的联合是生物信息学领域的热门趋势,被称为科研界的“万金油”毫不为过。
通过对大量的多组学数据进行深度分析,
机器学习能够高效筛选出与疾病密切相关的关键基因、蛋白质或代谢物,为早期诊断和预后评估提供有力支持。
这项研究堪称多组学联合机器学习的典范,该研究以急性呼吸窘迫综合征(acute respiratory distress syndrome ,ARDS)患者的血液生物标志物为研究对象,探索有效的方法和精准的预后策略,以改善ARDS患者的临床结局。研究人员分析了从ARDS初始阶段患者、疾病对照组以及健康对照组收集的血清样本,运用4D-DIA蛋白质组学和整体代谢组学技术进行数据采集。在发现队列中,结合LASSO方法、倍数变化分析和Boruta算法,成功筛选出与ARDS患者28天预后相关的生物标志物。随后,在外部验证队列中,通过平行反应监测(PRM)靶向质谱法对候选生物标志物进行了验证,进一步证实了其可靠性和临床应用潜力。这一研究揭示了几种新的预测生物标志物,并建立了一个经过验证的 ARDS 不良预后预测模型,为 ARDS 患者的预后提供了有价值的见解。同时为多组学与机器学习的整合应用提供了一个可复现的新思路。
扫码添加 ⬪ 精彩内容抢先看
个性解读|课题设计
生信热点|直播分享
急性呼吸窘迫综合征(ARDS)是危重症患者常见的临床表现,通常由严重感染、严重损伤或吸入有害刺激物引发。研究表明,ARDS在重症监护病房(ICU)患者中的死亡率高达46%。在2019冠状病毒病(COVID-19)大流行期间,ARDS的死亡率甚至攀升至70%。因此,探索有效的治疗方法和精准的预后策略对于改善ARDS患者的临床结局至关重要。多组学技术的整合,尤其是蛋白质组学与代谢组学的结合,为揭示不同生物系统层面之间的相互作用提供了有力工具。然而,
蛋白质组学和代谢组学在成人ARDS进展中的相互作用及其整体作用机制仍未得到充分研究。
本研究旨在利用蛋白质组学和代谢组学技术,分析由ARDS初始阶段患者、疾病对照组和健康对照组组成的发现队列,全面探讨与ARDS相关的生物学特征及其潜在机制。此外,研究团队还将结合蛋白质组学与机器学习方法,筛选与ARDS预后相关的候选生物标志物,并采用平行反应监测(PRM)技术在一个独立队列中对这些标志物进行验证。通过这一研究,我们期望为ARDS的治疗和预后提供新的科学依据和临床见解。
注:
ARDS初始阶段患者:柏林定义诊断为ARDS的人群,疾病对照组:具有ARDS风险因素但未发展为ARDS的ICU患者,健康对照组:健康个体,无急性疾病和胸部放射学异常
1.研究设计流程
蛋白质组学和代谢组学的工作流程概述如图1A所示。独立的前瞻性验证队列包括183例早期ARDS患者,其中85例死亡,98例存活。图1B展示了在ARDS组、疾病对照组和健康对照组中鉴定和定量的蛋白质数量。图1C列出了在三组中丰度排名前五的蛋白质。图1D展示了基于蛋白质组学数据的样本聚类分析结果,反映了样本之间的相似性和差异性。
图1.ARDS初始阶段患者、疾病对照组和健康对照组血清蛋白质组学分析的研究设计流程
2.ARDS组相比非ARDS组的血清蛋白质组学谱改变
研究人员对首先进行了蛋白质筛选与数据预处理:
首先过滤了低丰度的蛋白质,最终保留了2669种高质量的蛋白质用于后续分析,通过聚类树分析验证数据预处理方法的合理性(图1D)。
然后使用PCA方法分析各组样本的聚类模式(图2A和图S2A–C)。
结果显示ARDS样本与非ARDS对照组之间存在明显差异。
全面的差异表达分析表明,在ARDS vs. 健康对照(HC)、ARDS vs. 疾病对照(DC)以及DC vs. HC组中,分别有1069、319和511种蛋白质发生独特变化(图2B–C和图S2D),
这些发现揭示了血清蛋白质变化与疾病严重程度相关的渐进特征。
然后研究人员寻找差异蛋白:在ARDS患者中,16种蛋白质持续下调,198种蛋白质持续上调(图2F)。
查阅文献解释作用:
在下调蛋白质中,胎球蛋白B(Fetuin B, FETUB)被认为是预测金黄色葡萄球菌菌血症(SaB)患者死亡率的可靠生物标志物,对氧磷酶1(Paraoxonase 1, PON1)与脓毒症患者较高死亡率呈负相关(图2G)。相反,某些蛋白质如表面活性蛋白D(Surfactant Protein D, SFTPD)和信号转导及转录激活因子3(Signal Transducers and Activators of Transcription 3, STAT3)等则显著上调。此外,SFTPD作为一种循环上皮标志物,以及STAT3作为巨噬细胞和中性粒细胞的激活因子,被认为是ARDS发病机制中的潜在关键贡献者。
通过蛋白质组学分析,揭示了ARDS患者血清中蛋白质的显著变化,并筛选出一些与疾病严重程度和预后相关的关键蛋白质。
通路分析确定了在ARDS中特异性调控的九条独特通路(图2D–E和图S3)。值得注意的是,氧化磷酸化通路在ARDS与疾病对照组(DC)和健康对照组(HC)的比较中显著上调,揭示了其在ARDS能量代谢中的关键作用。
图2H展示了这九条重叠通路中富集的蛋白质,这些蛋白质在ARDS病例中的血清水平均有所增加。
在重点突出的蛋白质中,参与线粒体功能的琥珀酸脱氢酶复合体铁硫亚基B(SDHB)以及液泡ATP酶家族的多个组分(ATP6V1D、ATP5MG、ATP6V1H)与氧化磷酸化有关。此外,
与VEGF信号通路相关的蛋白质,如丝裂原活化蛋白激酶激酶1(MAP2K1)、磷酸肌醇-3-激酶调节亚基1(PIK3R1)和非受体酪氨酸激酶(SRC),在ARDS中显著上调。
图2:
ARDS中差异丰度蛋白质及功能改变
3.蛋白质组学与代谢组学的交互作用提示鞘脂信号通路是ARDS的调控介质
研究人员系统地鉴定了3331种代谢物,包括氨基酸、脂质和其他关键的血清代谢物。主成分分析(PCA)图显示,
溶血磷脂酰胆碱(LysoPC)是ARDS中变化最显著的代谢物,特别是LysoPC和LysoPC显著减少。
通过KEGG通路分析,
研究人员发现鞘脂信号通路和鞘脂代谢在ARDS中显著调节
,与非ARDS组相比具有独特性(图3D)。重要的是,图3E显示代谢物S1P(鞘氨醇-1-磷酸)将鞘脂信号通路与多个其他信号通路联系起来,包括Apelin信号通路、钙信号通路和磷脂酶D信号通路。此外,与DC和HC组相比,ARDS组中S1P水平降低,而鞘氨醇水平升高(图3F)。
研究人员进一步进行了蛋白质组学和代谢组学的整合分析。
研究的一个重要发现是,
鞘脂信号通路在蛋白质和代谢物水平上均受到显著调控,成为ARDS发病机制中的核心通路
(图3D)。进一步的网络分析表明,鞘脂信号通路在ARDS特异性调控网络中处于核心位置(图3E)。
具体而言,关键的调控蛋白如BCL2相关X蛋白(BAX)、BH3相互作用域死亡激动剂(BID)、PIK3R1、MAP2K1和NF-κB亚基(RELA)在ARDS中表达上调(图3F)。
此外,网络中的枢纽蛋白MAP2K1将鞘脂信号通路与多个重要通路联系起来,包括甲状旁腺激素合成、分泌和作用、Apelin信号通路、胆碱代谢、磷脂酶D信号通路、FcγR介导的吞噬作用和凋亡。BAX和BID介导了鞘脂信号通路与坏死性凋亡和凋亡的相互作用,而RELA则与凋亡相关。PIK3R1将鞘脂信号通路与FcγR介导的吞噬作用、凋亡、磷脂酶D信号通路和胆碱代谢联系起来(图3E)。
图3:
ARDS 的代谢分析及其与蛋白质组学的相互作用
4.ARDS发病时死亡患者的生物功能失调和代谢物LysoPCs及S1P的改变
为了进一步研究与ARDS预后相关的蛋白质组学变化,研究人员对ARDS幸存者和非幸存者进行了比较分析(图4A)。
差异表达分析鉴定出40种具有显著变化的蛋白质。
在死亡和存活的ARDS患者之间,变化最显著的蛋白质是Radixin(RDX)和Moesin(MSN),
它们在将肌动蛋白连接到质膜的过程中起关键作用(图4B)。
随后的基因集富集分析(GSEA)揭示了排名靠前的分子通路(图4C和支持信息)。
为了进一步筛选关键蛋白候选物,研究团队聚焦于蛋白质-蛋白质相互作用(PPI)网络中连接度最高的前25种蛋白质。其中,甘油醛-3-磷酸脱氢酶(GAPDH)、热休克蛋白90α家族A类成员1(HSP90AA1)和烯醇酶1(ENO1)成为网络中的核心枢纽蛋白(图4D–E)。这一发现与GSEA结果一致,
因为GAPDH和ENO1是糖酵解中的关键酶,而HSP90AA1是一种管家蛋白,协助蛋白质折叠并具有内在的ATP酶活性。
在整体代谢水平上,PCA图显示ARDS死亡组和存活组之间存在轻微分离(图4F)。45种差异丰度代谢物(DAMs)在鞘脂信号通路、磷脂酶D信号通路、钙信号通路和Apelin信号通路等信号通路中显著富集(图4G)。LysoPC、LysoPC和S1P在这些通路中显著富集。此外,LysoPC和S1P的水平在ARDS死亡组中显著降低(图4H)。
更重要的是,这三种代谢物与ARDS严重程度(通过SOFA评分量化)的相关性分析显示负相关(LysoPC (O-18:0/0:0)的R = −0.47;LysoPC (15:0/0:0)的R = −0.50;S1P的R = −0.36)
(图4I),提示这些代谢物的变化可能是ARDS非幸存者死亡率增加的潜在代谢机制。
图4:
多组学分析将已故的 ARDS 与幸存的
ARDS 进
行了比较
5.构建预后模型,用于早期预测ARDS的结局
研究人员通过LASSO回归(图S6A–B)、Boruta算法和差异丰度蛋白(DAPs)分析,筛选出36个候选生物标志物。其中8个蛋白质在发现队列和验证队列中均保持显著一致性(图5A–B)。
在这8个蛋白质中,有6个蛋白质在死亡患者中显著上调,而另外2个蛋白质在死亡ARDS组中一致下调(图5B)。这些标志物被选为一个八蛋白组合,用于早期识别ARDS死亡患者。
在发现队列中,我们
首先比较了五种先进的机器学习分类器在蛋白质模型中的表现。由于整体性能优越,Glm模型被选为最终分类器,在发现队列中,Glm模型表现最佳,
ROC-AUC为0.893,敏感性为0.920,显著优于临床风险模型(ROC-AUC为0.784)。
在外部验证队列中,
Glm模型的ROC-AUC为0.802,敏感性为0.835,
仍然优于临床风险模型
(ROC-AUC为0.738)。
两个模型的组合在验证队列中表现更优
(ROC-AUC为0.844),表明结合生物标志物和临床参数可以提高预测性能。
图5:
ARDS 的预后模型开发和验证
机器学习与多组学技术的深度融合已成为生物信息学领域的前沿热点,堪称科研界的“万能钥匙”。通过整合多组学数据,机器学习能够从中精准挖掘出与疾病发生发展密切相关的关键分子标志物,为揭示复杂疾病的分子机制提供了新视角。
这项研究强调了鞘脂信号通路在揭示ARDS发病机制中的重要性。蛋白质MAP2K1和代谢物S1P在该通路中发挥了关键作用。由八种蛋白质组成的组合在预测ARDS死亡事件方面优于临床预后模型。这些发现对ARDS管理中的风险评估和潜在治疗策略的指导具有重要意义。
扫码添加 ⬪ 精彩内容抢先看
个性解读|课题设计
生信热点|直播分享