专栏名称: 生信人

共同学习生物信息学知识，共同探究生物奥秘。

机器学习用的好，一区TOP期刊跑不了：下呼吸道感染诊断的“火眼金睛术”

生信人 · 公众号 · 生物 · 2025-02-06 07:05

正文

下呼吸道感染（LRTI）每年导致的死亡人数超过其他类型的呼吸道疾病，且病原多样，传统诊断方法难以区分感染与定植。宏基因组学技术虽可提供全面的病原检测，但受常驻微生物和机会性病原菌影响。宿主免疫反应和微生物群的变化在LRTI诊断中展现出重要的潜力，特定免疫通路的上调和微生物群组成变化可作为区分感染与非感染的标志。

近日，国家呼吸医学中心曹彬团队在 Advanced Science 发表了题为“ Accurate Diagnosis of Lower Respiratory Infections Using Host Response and Respiratory Microbiome from a Single Metatranscriptome Test of Bronchoalveolar Lavage Fluid ”的研究论文，团队通过分析201名LRTI和非感染性模仿疾病患者的BALF样本，提出了一种结合宿主与微生物特征的 LRTI诊断分类模型 ，可以准确区分LRTI和非 LRTI。

论文标题

扫码添加 ⬪ 精彩内容抢先看

个性解读｜课题设计

生信热点｜直播分享

尽在生信人

曹彬团队依托国家呼吸医学中心和国家呼吸临床研究中心，长期致力于呼吸病临床一线救治和科学研究，建立了呼吸感染临床与基础转化研究队伍，前期连续发表在近10年发表SCI论文130余篇（其中Lancet、NEJM论著10篇），团队在流感病毒、新型冠状病毒、腺病毒和耐药细菌所致呼吸感染的流行病学、病原学、免疫学机制和临床救治领域取得了具有国际影响的创新性成果，研究结果纳入多个国内外临床治疗指南。

曹彬教授团队 /中日友好医院国家呼吸医学中心

一、研究背景

下呼吸道感染（LRTI）是导致死亡的主要呼吸疾病，其病原体多样，包括细菌、病毒、真菌和结核菌，使得准确诊断变得复杂。传统检测方法如培养、抗原检测和分子诊断测试，虽具有高特异性和敏感性，但通常只能检测有限的病原体或需要成功培养微生物，导致许多可能的细菌病原体未被检测出来。因此，临床上需要新的诊断技术。

二、研究思路

图 1 研究流程图

1、样本收集： 从中国-日本友好医院（CJFH）招募了201名疑似LRTI的患者，这些患者接受了支气管镜检查和支气管肺泡灌洗液（BALF）的mNGS测试。

2、数据收集： 收集患者的BALF样本进行转录组和宏基因组分析，以评估宿主反应和呼吸道微生物组。其次再收集患者的临床数据，包括年龄、性别、免疫状态、ICU入院情况、感染状态、死亡情况等。

3、实验方 法：利用mNGS技术对BALF样本中的DNA和RNA进行深度测序，以获得微生物组的全面视图，并进行全谱病原体检测。对BALF样本中的宿主RNA进行测序，以分析宿主对感染的反应。

4、数据分析： 使用机器学习方法，基于宿主基因表达特征建立模型，以区分LRTI和非LRTI患者。通过WGCNA和KEGG富集分析，识别与LRTI相关的宿主反应途径。利用宏转录组数据，分析宿主反应和呼吸道微生物组特征，以建立LRTI诊断分类器。

5、模型开发和验证： 开发基于宿主标记基因的分类器，以区分LRTIs、非LRTIs和不确定状态的患者。在独立队列中验证分类器的性能，评估其在新数据集上的准确性和鲁棒性。

三、实验结果

1、BALF RNA-seq数据揭示LRTI和非LRTI之间的不同宿主反应

作者对BALF样本的mNGS RNA-seq数据进行了转录组分析，发现766个DEGs，其中RN7SL342P和ZNF483分别表现为下调和上调最多的DEGs （图2A）。前50个DEGs的可视化显示，大多数上调基因参与了先天免疫反应（图2B）。KEGG通路富集分析显示，与感染后细胞因子反应相关的通路，在DEGs中富集度最高（图2C）。GO富集分析进一步表明，先天免疫反应对呼吸道感染的激活是普遍的，其中中性粒细胞迁移和趋化作用是最丰富的过程（图2D）。

图2 LRTI和非LRTI患者之间从mNGS宿主数据中分析的不同宿主反应

2、LRTIs的宿主反应与患者的临床特征相关

作者随后进行了WGCNA分析，BALF mNGS RNA-seq数据中10889个基因和198名患者分为8个基因模块，许多模块与临床指标显著相关（图3A）。绿色模块与患者的LRTI状态、病原体类型、ICU入院、白细胞计数和中性粒细胞计数正相关。KEGG富集分析显示 “Chemokine signaling pathway”和“Cytokine-cytokine receptor interaction”途径在绿色模块中富集度最高（图3B）。PPI网络显示，CXCR1、VNN2、BST1、CREM、IL1R1和CD48等关键基因在感染后免疫细胞招募和激活中起重要作用（图3C）。这些结果证实了 绿色模块中的基因涉及宿主对感染的反应，并与患者的临床特征相关联。

图3 基因模块与临床性状之间的关联

3、基于宿主基因表达特征对LRTI的状态进行分类

作者基于BALF mNGS RNA-seq数据开发了机器学习（ML）分类器，以区分LRTI患者和非LRTI患者。通过比较随机森林（RF）、逻辑回归（LR）和支持向量机（SVM）模型，选择了LR模型进行特征选择和超参数调优。最终，14个基因的LR模型在发现队列中实现了80.6%的准确率和0.86的平均AUC值（图4A），在验证队列中准确率为77.9%（图4B）。此外，还建立了一个三分类模型，将患者分为LRTI、非LRTI和不确定LRTI三类，准确率为72% ± 9.3% （图4E）。这些结果表明，ML模型在预测LRTI状态方面具有较高的准确性。

图4 宿主基因表达分类器用于LRTI诊断的性能

4、基于整合模型的LRTI微生物组特征及LRTI状态分类

作者随后分析了232个样本的呼吸道微生物组特征，发现LRTI患者的微生物α多样性和均一性低于非感染性疾病患者（图5A），且微生物负担更重。然而，两组间肺核心微生物群的读数百分比没有差异（图5C）。PCoA分析显示， LRTI患者的微生物组与非感染性疾病患者明显不同（图5D）。作者还将微生物组的α多样性、均一性和微生物负担特征整合到宿主分类器中，集成模型的 AUC 略有增加（图5E），这表明在整合微生物组特征后，宿主分类器的性能得到了增强。

图5 LRT患者的呼吸微生物组以及宿主反应和微生物组的整合模型

四、总结

这篇研究文章提供了一种创新的方法来诊断下呼吸道感染，通过分析支气管肺泡灌洗液的宏转录组数据，成功区分了LRTI患者和非感染性疾病患者。文章的亮点在于整合了宿主基因表达特征和呼吸道微生物组特征，开发出一种机器学习分类器，这不仅提高了诊断的准确性，也为临床提供了一个有力的工具。

然而，研究的局限性在于依赖于回顾性数据，可能存在选择偏差。此外，样本收集仅限于符合BALF测试医学指征的患者，可能无法代表所有LRTI患者。未来的研究需要在多中心、前瞻性队列中验证这一模型，以评估其在不同地区和新患者群体中的性能。

总的来说，这项研究为LRTI的诊断提供了新的视角，并展示了宏转录组数据在临床诊断中的潜力。随着技术的进一步发展和验证，这种方法有望改善LRTI的诊断和管理。

扫码添加 ⬪ 精彩内容抢先看

个性解读｜课题设计

生信热点｜直播分享

尽在生信人

参考文献：

[1] Zou X, Yan M, Wang Y, Ni Y, Zhao J, Lu B, Liu B, Cao B. Accurate Diagnosis of Lower Respiratory Infections Using Host Response and Respiratory Microbiome from a Single Metatranscriptome Test of Bronchoalveolar Lavage Fluid. Adv Sci (Weinh). 2024 Dec 18:e2405087. doi: 10.1002/advs.202405087. Epub ahead of print. PMID: 39692191.

最新文章汇总 （持续更新ing）

最新热点方向

1、去年才出的review，今年就有顶刊了——神经免疫

2、医之侠者：中国肺癌领军人物吴一龙

3、陈志坚成果汇总｜大概率是华人下一位诺奖获得者

4、《Nature》中肠道菌群研究的正确打开方式

5、这文章才十来分，是被nature撤稿影响了吗？

机器学习用的好，一区TOP期刊跑不了：下呼吸道感染诊断的“火眼金睛术”

正文

请到「今天看啥」查看全文