专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
51好读  ›  专栏  ›  智药邦

NSR综述|中南大学王建新等:生物信息学中的基础模型

智药邦  · 公众号  ·  · 2025-02-23 08:00

正文

2025年1月25日,National Science Review(NSR)发表综述文章Foundation Models in Bioinformatics。通讯作者为中南大学王建新教授,第一作者为中南大学郭菲教授。

基础模型(FMs)是一类大规模的人工智能系统,经过在海量数据集上的广泛预训练,基础模型能够有效应用于各种下游任务。近年来,基础模型的普及大大促进了AI在生物信息学领域的应用,成功解决了许多关键难题,如预训练框架、模型评估和可解释性等。尤其是,对于成本高昂且耗时的生物实验过程,基础模型在处理大规模未标记数据集方面的卓越表现尤为重要。

FM的崛起标志着计算生物学新时代的到来,它们不仅关注广泛的通用性问题,还深入探讨特定的生物学问题,在多种生物信息学下游任务中取得了显著成果,在预测任务和生成任务的准确性上达到了全新的高度。本综述介绍基础模型在生物信息学多个下游任务中的最新进展,帮助科学家根据不同模型的特性,为生物信息学中各种问题选择最合适的基础模型。

本文聚焦于语言基础模型、视觉基础模型、图基础模型和多模态基础模型四种类型 探讨了这些基础模型在生物信息学下游任务中的具体应用 ,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析;重点梳理了代表性模型在生物基准数据集、训练策略、模型结构、超参数配置及生物发现等方面的不同表现,并针对模型预训练框架、基准选择、白盒模型、可解释性及模型幻觉评估等问题,展望了生物信息学基础模型未来的发展前景。

图1. 生物信息学中基础模型。

内容

1. 生物信息学基础模型的发展历程


文章概述了生物信息学基础模型从早期版本到当前版本的发展历程,展示了这些模型在推动科学研究和理解生物分子复杂相互作用方面的重要潜力。通过揭示基础模型的演变过程,深入解析了改进后模型是如何克服原始模型的局限性的。利用最新的生物信息学基础模型,研究者们实现了前所未有的准确性,构建了集成的人工智能模型,并开展了更为丰富的下游分析。

本文以经典的生物学问题“蛋白质三维结构重建”为例,回顾了DeepMind在过去五年中开发的三代人工智能系统:

  • 2020年,DeepMind推出的AlphaFold成功预测了蛋白质结构,其预测过程分为两步:首先,利用220个深度残差卷积块来预测残基的距离和旋转分布;然后,基于这一预测结果进行梯度下降以获得蛋白质的三维结构。然而,AlphaFold在处理长距离残基对的依赖关系时,丢失了大量有价值的信息。
  • 随后,AlphaFold2引入了“EvoFormer”和“结构模块”,实现了更高的预测精度。EvoFormer采用与多序列比对(MSA)交换信息的创新机制,并结合基于注意力的新组件,显著提升了对空间和进化关系的推断能力;而结构模块则通过不变点注意力直接预测3D坐标,从而进一步提高了预测的准确性。然而,AlphaFold1和AlphaFold2均依赖于丰富而准确的MSA数据。
  • 现今,AlphaFold3标志着一个重要的进步,它具备重建复杂生物分子复合物结构的能力。该系统通过四个模块与MSA信息和成对表示进行交互,减少了对MSA的依赖。它引入的扩散模块能够直接估计原始原子坐标,并与特定于氨基酸的框架和侧链的扭转角协同工作,从而更直接、全面地预测分子结构。

图2. 生物信息学中基础模型的演化过程。

2. 模型架构


本综述总结了多类基础模型,深入探讨了基础模型在生物信息学中各种下游任务中的应用,并分析了若干关键方面,包括生物数据库、训练策略、超参数配置以及相关生物学应

(1)基因组基础模型: 利用Transformer解码DNA语言的研究已引起广泛关注,它通过遗传密码破译生物功能,从而解释DNA转化为蛋白质的过程。

DNABERT使用Transformer技术捕获基因组DNA序列的全局和可迁移特征。Nucleotide Transformer能够跨基因组数据集构建和预训练基础语言模型。DNABERT-2对字节编码进行了修改以提高计算效率,并采用多种策略来解决输入长度的限制。Evo是一种上下文基础模型,能够处理从分子层面到基因组规模的任务,促进预测和生成任务的开展。VQDNA利用VQ-VAE技术,基于数据模式重新定义了基因组标记化,形成了一个整体系统来学习基因组词汇。

然而,生物序列的长序列长度在训练过程中带来了诸多挑战,使得这些模型在解决某些生物学问题时面临困难。随着大规模序列建模的兴起,生物学和基因组学领域取得了迅速发展。Caduceus代表了首个RC等变双向长程DNA基础模型,在长程模型领域展现出了优于前代模型的性能。

(2)转录组基础模型: 基于BERT语言模型的进步促进了重要RNA基础模型的出现。RNA-FM利用自监督学习来预测RNA的2D/3D结构,捕获多种结构信息,从而提供对RNA序列特征的全面理解。RNA-MSM采用来自RNAcmap的同源序列,擅长将碱基配对概率和溶剂可及性映射到二维碱基配对概率图。

此外,最近通过生成对抗网络等人工智能技术,提出了多个RNA生成模型。RfamGen将比对信息和共识二级结构数据集成到深度生成模型中,以便于RNA家族序列的设计。GenerRNA是可用于RNA设计的大规模模型,通过微调预训练模型来实现各种RNA序列、结构和功能任务。

(3)蛋白组基础模型: 蛋白质在构建和维持生命的重要过程中起着关键作用,蛋白质结构决定了如何与其他分子相互作用以及其功能表现。

ProteinBERT擅长预测翻译后修饰,这一能力得益于与GO注释预测任务的结合。OntoProtein是首个集成外部知识图的蛋白质预训练方法,它利用知识嵌入增强预先训练好的蛋白质语言模型,并从知识图中提取生物学知识,通过生成模型来简化蛋白质的下游任务。此外,CASP客观地检验了全球的结构预测方法,通过对各种方法进行分类,评估未来研究的有效方向。

(4)药物发现基础模型: 在计算机辅助药物发现领域,专家知识算法被广泛应用于筛选药物分子、其先导化合物以及它们与靶分子的相互作用。

SMILES-BERT是一种新型的分子指纹识别方法,它不依赖于基于知识的分子指纹作为输入,从而能够实现多种下游预测任务的分子性质分析。X-MOL则利用预训练模型进行SMILES分子的理解,并通过微调来完成一系列下游分子分析任务,如预测分子性质、分析化学反应、预测药物-药物相互作用以及优化分子。

(5)单细胞分析基础模型: 单细胞语言模型在识别细胞状态、发现新细胞类型、推断调节网络以及整合多组学数据方面具有广泛应用。

scGPT提供了一种针对非顺序数据集定制的统一预训练管道,利用堆叠的变压器层和多个注意力头,使得模型能够针对特定应用进行通用预训练和微调。scTranslator提出了一个大型预训练生成模型,结合了自然语言处理技术和遗传中心法则,从转录组数据中推断缺失的蛋白质组。scButterfly学习个体模态中的潜在因素,使用双重对齐变分自编码器和数据增强方案来执行跨模态翻译。scFoundation引入了一种新的预训练方法,读取深度感知(RDA)建模。Nicheformer是一种基于变压器的方法,从解离的单细胞和转录组学数据中学习细胞表征,以支持多种下游应用。CELLama则创建了细胞数据嵌入,将基因表达和元数据封装成句子。为了评估单细胞基础模型,scEval评估了超参数和大语言模型的训练方式,总结了单细胞语言模型的局限性及发展方向。

3. 未来研究方向


本文重点研究了生物信息学中的基础模型及其多种应用,这些模型准确地模拟了分子生物学的复杂性。 预训练架构能够捕获与源数据相关的模式,而微调策略则针对特定任务数据进行分析,以准确解决生物学问题。通过探索这些前沿技术,研究人员能够获得有关分子间动态相互作用的新见解

本文还进一步讨论了基础模型的可解释性及大规模模型体系结构相关的挑战与机遇,探索了模型预训练框架、基准方法选择、白盒方法与可解释性,以及模型幻觉评估等内容。






请到「今天看啥」查看全文