本文约2000字,建议阅读5分钟
本文介绍了在 DNA 序列上进行预训练的基础模型。
从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战,通常是由于注释数据有限以及无法在任务之间转移学习所致。在这里,英国伦敦 InstaDeep 的研究人员提出了在 DNA 序列上进行预训练的基础模型,称为 Nucleotide Transformer;其参数范围从 5000 万到 25 亿,并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。这些 Transformer 模型可生成特定上下文的核苷酸序列表示,即使在低数据环境下也能实现准确预测。该模型可以以低成本进行微调,来解决各种基因组学应用问题,为从 DNA 序列进行准确的分子表型预测提供了一种广泛适用的方法。该研究以「Nucleotide Transformer: building and evaluating robust foundation models for human genomics」为题,于 2024 年 11 月 28 日发布在《Nature Methods》。基础人工智能(AI)模型通过大规模训练,能够处理各种预测任务,显著推动了科技领域的发展。自然语言处理(NLP)中的掩码语言建模,是实现语言理解的一种方法,通过预测句子中的缺失单词,训练模型深入理解语言。生物学中的早期基础模型通过训练蛋白质序列,利用掩码氨基酸预测任务,展示了在蛋白质结构和功能预测等任务中的优越表现。迁移学习使得这些蛋白质语言模型在数据稀缺情况下超越了传统方法。除了蛋白质序列,DNA 序列中的编码模式在理解基因组过程中的重要性日益突出,特别是在评估变异影响等方面。现代基因组学面临着数据量庞大、数据模式异常复杂的挑战。在这里,英国伦敦 InstaDeep 构建了强大的基础模型来编码基因组序列,称为 Nucleotide Transformer(NT),并提出了系统的研究和基准来评估它们的性能。图示:Nucleotide Transformer 概述。(来源:论文)该团队通过构建四个大小各异的不同 LM 来进行他们的研究,这些 LM 的参数数量从 5 亿到 25 亿不等,比 DNABERT-2 大 20 倍,比 Enformer 主干模型大 10 倍。这些模型在三个不同的数据集上进行了预训练,包括人类参考基因组、3,202 个不同人类基因组的集合以及来自不同物种的 850 个基因组。为了评估 NT 在适应各种任务时的性能稳定性,团队在 18 个不同的基因组策划预测任务上训练了每个模型,并使用系统的十倍交叉验证程序将它们与三个替代 DNA 基础模型以及一个最先进的非基础模型进行了比较。图示:Nucleotide Transformer 模型在微调后准确预测了不同的基因组学任务。(来源:论文)此外,为了扩大评估范围,研究人员将表现最佳的模型与三个针对特定任务进行了优化的最先进的监督基线模型进行了比较。为了解读在预训练期间学习到的序列特征,团队探索了模型的注意力图和困惑度,并对它们的嵌入进行了数据降维。此外,研究人员通过基于零样本的评分评估了嵌入对人类功能重要遗传变异影响的建模能力。在初始实验结果的基础上,他们开发了第二组四个 LM,其参数大小从 5 亿个减少到 5000 万个,以研究此类模型的缩放规律。该团队成功构建了一个模型,仅使用十分之一的参数数量、将感知场大小增加了一倍,便达到了之前最佳模型的性能。图示:Nucleotide Transformer 模型获得了有关基因组元件的知识。(来源:论文)并且,与全模型微调 (IA3) 相比,该研究提供了相对快速且资源高效的微调程序,且差异很小。值得注意的是,该团队的微调方法仅需要总参数数量的 0.1%,即使是这里最大的模型也可以在单个 GPU 上在 15 分钟内完成微调。与广泛的探索练习相比,这种技术在使用更少的计算资源的情况下产生了更好的结果,证实了下游模型工程可以带来性能大幅改进和优化。图示:高效的模型架构允许匹配性能,同时大幅减少模型参数的数量。(来源:论文)总之,该研究的结果基于不同的基因组预测任务,表明物种内(在单个物种的多个基因组上进行训练时)和物种间(在不同物种的基因组上进行训练时)的变异性都会显著影响任务间的准确性。在大多数考虑的人类预测任务中,用不同物种的基因组训练的模型比只用人类序列训练的模型表现更好。这表明,用不同物种训练的 Transformer 模型已经学会了捕捉可能对不同物种具有功能重要性的基因组特征,从而能够在各种基于人类的预测任务中更好地推广。基于这一发现,研究人员认为未来的研究可能会受益于利用跨物种遗传变异,包括确定对这种变异进行采样的最佳方式。另一个有趣的途径是探索对物种内变异进行编码的不同方式。同时研究人员表示,这里将所有个体基因组的序列混合在一起的方法只取得了有限的改进,因此表明当大多数基因组是共享的时,利用来自不同个体的基因组可能并不那么简单。论文链接:https://www.nature.com/articles/s41592-024-02523-z
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU