随着基因测序技术的进步,微生物基因组数据激增,但如何解读这些基因的功能仍是生物信息学中的难题。2022年,Tel-Aviv大学David Burstein团队在《Nature Communications》上发表了一项突破性研究,提出了一种基于自然语言处理(NLP)的方法,用来解读微生物基因功能。这种方法结合了语言模型和基因组学,通过构建庞大的微生物基因数据库,并对其进行深度学习训练,成功预测了约56,617个未注释基因的功能,为微生物研究带来了前所未有的洞察。本文将详细解读这一研究的成果,并探讨其在生物信息学和微生物学领域的潜力。
一、构建庞大的微生物基因数据集:研究基础
在数据处理方面,Burstein团队从NCBI和EBI数据库中汇编了大量微生物基因组,尤其是细菌宏基因组和基因组数据,剔除了绿色植物、真菌和动物数据,确保了研究集中在微生物基因上。最终,研究者获得了3.6亿个基因的数据,这些基因来自1,100万个基因组片段(contig)。数据中的74%来自KEGG注释,其余部分根据序列相似性划分成了基因家族。在这些数据中,有80%的基因家族缺乏准确功能注释,这突显了这类NLP研究在功能预测中的重要性。
二、应用NLP构建“基因语义空间”
为了实现基因功能预测,研究团队巧妙地将NLP方法“迁移”到基因组数据中,采用Word2Vec算法,在一个多达3.6亿个基因的语料库中生成了“基因嵌入空间”,即通过基因间的共现关系,使相似功能的基因在嵌入空间中相邻。这类似于自然语言中相似词汇的聚集效果。例如,在模型构建过程中,某些基因相关的CRISPR防御系统在嵌入空间中被自动聚集在一起,形成一个基因功能的语义区域。
利用这种“基因语义空间”有以下几方面的优势:
1. 可视化功能聚类:基因功能相近的群体,如防御系统基因组、分泌系统基因组等,会在嵌入空间中聚集在一起。
2. 捕捉潜在功能异质性:对于同类基因在不同环境下可能表现的不同功能,NLP模型可在嵌入空间中显示它们在不同区域的分布。
3. 无监督学习:这种方法无需大量注释数据,适用于处理大量未注释的基因,为挖掘新功能基因提供了可能。
三、基于嵌入空间的功能分类与预测
研究团队进一步应用KEGG数据库中的功能注释,利用嵌入空间中注释基因的数据进行功能预测。为了更高效地预测基因功能,他们训练了四种机器学习模型:支持向量机(SVM)、随机森林(RF)、XGBoost和深度神经网络(DNN)。经交叉验证后,DNN模型在分类性能和运行速度方面均优于其他模型,达到了精确度-召回率曲线下面积(AUPR)为0.56-0.97的效果。
通过比较,研究发现基于嵌入的模型在防御系统和氧化磷酸化基因等上下文较强的基因功能预测中表现出色,而在氨基酸代谢等涉及多个途径的基因中准确性略逊。更重要的是,DNN模型比传统基于同源性方法(如PSI-BLAST、HMMer和HHblits)的敏感度平均高出1.4倍。
四、挖掘未注释基因功能的潜力
在预测模型验证后,研究团队成功预测了20,000多个基因的功能类别,其中包括56,617个先前未注释的基因家族。模型预测结果显示,90%以上的未注释基因与原核防御系统、分泌系统等相关,这一发现扩展了微生物学界对防御基因的理解。例如,许多细菌防御系统基因被归类到了CRISPR相关系统中,预测准确率高达98.6%,这为未注释基因家族中可能存在大量防御系统基因提供了证据。
此外,研究团队还评估了不同功能类别的“发现潜力”,发现了40,247个未定性基因家族与防御系统有关。这表明在未被发现的基因库中还蕴藏着丰富的原核生物防御系统。通过稀缺性分析,研究进一步揭示了不同功能类别中的新基因挖掘潜力,为未来更深入的功能研究奠定了基础。
五、预测结果验证:微生物膜机制与防御系统的发现
研究团队还在该模型的指导下发现了多个特定的细菌膜相关机制。例如,他们在不同种属中找到了一个假设的分泌相关系统和IV型纤毛系统,这些发现表明基因嵌入空间在揭示新颖机制方面具备独特价值。以下是主要发现:
1. 分泌相关操作子
研究团队在Ruminococcus和Eubacterium等菌属中识别出一个由8-9个基因组成的假定分泌系统操作子,该系统可能涉及分泌功能。
2. 防御系统
使用嵌入空间中的DNN模型预测,研究者成功发现了一个假设的防御系统核心基因组,该系统包含具有DNA结合结构域和裂解结构域的多种基因,推测具备防御机制功能。
六、未来应用与展望:利用NLP推进基因功能研究
本研究展示了基于NLP的深度学习模型在基因功能预测中的巨大潜力,提供了一种可大规模应用于未注释基因家族的探索新方法。以下是一些潜在的应用方向:
1. 高效预测特定基因功能
利用NLP嵌入的分类模型可以在无序列相似性的情况下预测基因功能。通过进一步微调,可以提升模型在特定功能预测中的表现,例如在抗菌耐药性和代谢合成途径中的预测。
2. 跨物种通用性与普适性
该模型可应用于人类肠道、植物共生体等不同物种的微生物组研究,形成跨物种的微生物功能预测工具,为理解生物多样性中的基因功能提供新思路。
3. 结合高级NLP模型,提升预测精度
本研究采用的word2vec模型虽已展示出色的性能,但未来引入如transformer、BERT等新型架构可以更有效地捕捉基因数据的上下文关联,进一步提升对复杂基因功能的预测能力。
4. 实时动态学习与新知识整合
随着基因数据库的不断更新,研究人员可以动态训练模型,逐步提升模型的功能识别能力,实现基因功能预测的持续改进。
结语
利用自然语言处理为微生物基因组学提供的创新工具展示了巨大的应用潜力。NLP不仅为分析庞大的基因数据集提供了高效工具,还通过无监督学习和功能嵌入空间方法,揭示了防御系统、膜机制等基因的新功能。本研究的成果为微生物学、药物开发及生态研究提供了新的技术支持。
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习