专栏名称: 生信学霸
生物信息学笔记,学习每一个软件的各种心得,分享快速做分析的技巧,分享生信分析文献,一个从业十年的生信人的所感所惑,偶尔撒泼一下!
目录
相关文章推荐
百姓关注  ·  梵净山紧急通知:暂时封闭! ·  昨天  
百姓关注  ·  多多买菜贵州多地招合伙人 ·  2 天前  
百姓关注  ·  部分景点暂时封闭!贵州知名景区紧急通知 ·  3 天前  
51好读  ›  专栏  ›  生信学霸

Advanced Science(IF 14.3):机器学习+微生物,中国医学科学院曹彬等团队开发诊断下呼吸道感染的分类模型

生信学霸  · 公众号  ·  · 2025-02-12 12:00

正文


Accurate Diagnosis of Lower Respiratory Infections Using Host Response and Respiratory Microbiome from a Single Metatranscriptome Test of Bronchoalveolar Lavage Fluid

下呼吸道感染( LRTI )每年造成的死亡人数比其他任何类型的呼吸系统疾病都多。细菌、病毒、真菌和分枝杆菌等多种微生物均可引起 LRTI ,因此难以准确诊断其致病因素。目前, LRTI 病原体的检测主要依赖于培养、尿液/痰液抗原测试和分子诊断测试,局限性较大,并且很难区分定植和感染。

Advanced Science 上发表的新文章通过分析支气管肺泡灌洗液( BALF )的宏转录组数据,发现 LRTI 患者的宿主反应和呼吸道微生物组与非 LRTI 患者有显著差异,并开发了基于这些特征的 LRTI 诊断分类模型,能够准确区分 LRTI 和非 LRTI 患者,为 LRTIs 的诊断提供了新的方法和工具。


期刊:Advanced Science(IF 14.3)

出版商:Wiley

发表:2024年12月18日

DOI: https://doi.org/10.1002/advs.202405087

关键词:下呼吸道感染 | BALF | 宿主反应 | 宏转录组 | 机器学习建模

技术手段:宏转录组、微生物组、WGCNA、机器学习算法、富集分析等

核心思路:


分析有术、思路创新

更多个性化生信分析方案

扫码咨询,获取您的专属私人定制!


方法



数据来源: CJFH 收集疑似 LRTIs 患者的 BALF 样本,筛选后纳入201名患者进行分析。

宿主基因表达分析: BALF 样本经测序后利用 fastp 进行质控,过滤后数据通过 HISAT2 比对人类参考基因组 hg38 ;基因计数矩阵由 featureCounts 计算并通过 edgeR 标准化为 CPM ;R包 edgeR 进行差异分析;R包 clusterProfiler 用于 GO KEGG 分析。

WGCNA 分析: 使用R包 WGCNA 进行加权基因共表达网络分析,以识别与临床特征显著相关的基因模块。

微生物组分析: 使用 KneadData 去除宿主 reads 后的数据用 Kraken 进行物种水平的微生物组分析,仅在所有样品中最大丰度超过0.1%且平均丰度高于0.01%的物种会进一步分析。

机器学习建模: 使用 Python scikit-learn 构建随机森林、逻辑回归和 SVM 模型,并通过 RFE 进一步筛选特征;通过5折交叉验证评估模型性能,并在独立验证队列中测试模型的鲁棒性。


结果



01

BALF RNA-seq 数据揭示 LRTIs 和非 LRTIs 之间的不同宿主反应

通过对 BALF mNGS RNA-seq 数据进行转录组分析,研究比较了 LRTIs 与非感染性疾病患者之间的宿主免疫反应差异。在发现队列的两组患者中共识别出766个 DEGs ,其中 LRTI 患者中显著上调的 DEGs 主要与先天免疫反应相关,包括趋化因子配体(如 CCL3L1、CCL3L3 )和受体(如 CXCR1 )、白细胞募集相关基因(如 S100A8、S100A9 )以及病毒感染相关基因(图1A,B)。 KEGG 通路富集分析结果显示,这些 DEGs 显著富集于与感染后的细胞因子反应相关的通路(图1C)。GO分析进一步表明这些 DEGs 在中性粒细胞迁移、趋化以及炎症反应相关过程中发挥重要作用(图1D)

图1


02

LRTIs 的宿主反应与患者的临床特征相关

为评估 LRTIs 的宿主反应与临床特征之间的关联性,研究进行了 WGCNA 分析。在去除患者低表达和异常值的基因后, WGCNA 分析将基因聚类为8个模块,其中绿色模块与患者的 LRTI 状态、病原体类型、 ICU 入住、白细胞计数和中性粒细胞计数显著正相关(图2A)。 KEGG 富集分析显示,绿色模块中的基因主要富集于“ Chemokine signaling pathway ”和“ Cytokine−cytokine receptor interaction ”等与抗感染免疫相关的通路中(图2B)。 PPI 网络显示, CXCR1、VNN2、BST1 等核心基因在感染后免疫细胞募集和激活中起关键作用(图2C)。这些结果证实 绿色模块中的基因参与宿主抗感染反应,并与患者的临床特征密切相关。

图2


03

基于宿主基因表达特征的 LRTI 状态分类

基于 BALF 数据,研究利用机器学习开发了一个可区分 LRTI 与非 LRTI 患者的分类模型。将发现队列中识别出的 DEGs 视为预测因子,研究构建了 RF、LR SVM 模型,其中 LR 模型在5次交叉验证中表现最佳,用于后续功能选择和参数调优。最终,研究利用 RFE 方法筛选出14个基因作为特征,它们在 LRTI 和非 LRTI 患者之间存在显著的表达差异(图3C)。基于特征基因构建和调优后的 LR 模型在发现队列和验证队列中准确率分别为80.6%和77.9%,并在发现队列内实现了0.86±0.046的平均 AUC (图3A,B)。此外, 研究还开发了一个区分 LRTI 、非 LRTI 和未明确 LRTI 患者的三分类模型 ,准确率为72%(图3D,E)。

图3


04

基于整合模型的 LRTI 微生物组特征及 LRTI 状态分类

通过对232例样本进行微生物组分析,研究发现 LRTI 患者的α多样性和均一性显著低于非 LRTI 患者,并且微生物负担更高(图4A)。调整抗生素使用和年龄等协变量后,这些差异仍存在,但两组在肺部核心微生物群的读段占比上没有差异(图4C)。 PCoA 分析显示, LRTI 患者的微生物组特征与非 LRTI 患者不同, CAP 相关细菌及肠道相关细菌在 LRTI 患者中更富集(图4D,E)。研究进一步将香农指数、均一性和微生物负担纳入之前的模型并重新调优,整合模型的 AUC 略有增加(0.88),表明 结合 微生物组数据可进一步提高 LRTI 诊断的准确性 (图4F)。

图4


结论



为突破常规检测局限,本文在样本和检测方法上实现了创新。通过分析支气管肺泡灌洗液( BALF )的宏转录组测序数据,研究评估了宿主的免疫反应和微生物组的变化,并开发了能有效区分 LRTI 与非 LRTI 患者的机器学习模型。研究发现, LRTIs 的宿主反应表现出细胞因子、趋化因子通路增强以及中性粒细胞活化和募集相关的基因模块特征,同时其下呼吸道微生物组的多样性和均一性显著降低,这可能与病原菌丰度增加有关。此外,研究 利用差异表达基因和微生物组特征开发的诊断分类模型在区分 LRTIs 、non-LRTIs 及不确定状态时表现出较高的准确性,为 LRTIs 的精确诊断提供了可靠方法。







请到「今天看啥」查看全文