2025 年 2 月 19 日,生物学领域的一个
重要里程碑
诞生了!
Arc 研究所的
Patrick Hsu
和
Brian Hie
团队联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校以及英伟达的科学家,发布了
有史以来最大的
生物学人工智能模型
(AI model for biology)
——
Evo-2
,其在规模上堪比当前最强大的生成式人工智能大语言模型
,但其训练仅使用了 2000 多个英伟达 H100 GPU,且该模型完全开源。
该模型训练了从单细胞的细菌、古菌到真核生物以及多细胞的植物以及人类的生命之树中的 12.8 万个基因组 DNA 序列,从而能够
实现对所有生命域的理解、建模和设计遗传密码,从头开始编写整个染色体,甚至从头设计生命,还能准确预测所有类型的基因突变
(包括编码基因和非编码基因)
的影响。
Evo-2 的训练使用了 2000 多个英伟达
H100 GPU,并得到了英伟达研究人员和工程师的合作支持。更重要的是
,
Evo-2 是
完全开源
的
,在 GitHub 上共享了模型参数、训练代码、推理代码以及训练使用的 OpenGenome 2 数据集。世界各地的研究人员可以通过英伟达 BioNeMo 平台免费访问以及部署 Evo-2。
Evo-1
2024 年 11 月 15 日,
Patrick Hsu
和
Brian Hie
团队在国际顶尖学术期刊
Sciencce
上发表了题为:
Sequence modeling and design from molecular to genome scale with Evo
的研究论文,该论文还被选为当期的封面论文。
该论文发布了首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型——
Evo
。
Evo
是在
原核生物
(细菌、古菌)
和
噬菌体
的基因组上进行训练,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列。研究团队使用 Evo 生成了
CRISPR-Cas
分子复合物和
IS200/IS605
转座子,并验证了它们的功能活性,这是首次通过语言模型实现蛋白质- RNA 和蛋白质- DNA 协同设计的实例。
值得一提的是,
Patrick Hsu
是 CRISPR 基因编辑先驱
张锋
教授的第一届研究生,现为 Arc 研究所联合创始人、加州大学伯克利分校助理教授。2024 年 6 月 26 日,
Patrick Hsu
连发两篇
Nature
论文,开发了一种基于
桥 RNA
(Bridge RNA)
的新型基因编辑工具,其能够在特定基因组位点插入、倒位或删除。
Evo-2 的前身 Evo 完全是在单细胞生命的基因组上进行训练的,而 Evo-2 进一步将其训练数据扩展到了生命的所有域——从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的真核生物,总计
12.8 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸
,训练参数高达 400 亿
(
Evo-2 有两个版本,训练参数分别是 70 亿和 400 亿
)
。
此外,Evo-2 使用了
StripedHyena 2
架构,这是一种新的卷积混合架构,结合了多种不同的操作符,相比 Transformer 架构,能够大幅提高训练速度和推理效率。Evo-2 的训练分为两个阶段:预训练阶段和中训练阶段。预训练阶段使用 8192 碱基对的上下文窗口,专注于功能性遗传元件;中训练阶段将上下文窗口扩展到 100 万碱基对,以学习长基因组距离之间的作用
(真核生物中调控序列与基因序列之间距离可能很远)
。
Patrick Hsu
表示,
Evo 和 Evo-2 代表了新兴生成式生物学领域的一个关键时刻,这些模型已经使机器能够用核苷酸的语言来读、写以及思考。Evo-2 对生命之树有着全面的理解,这对许多任务都很有用,从预测致病突变到设计人工生命。期待科学家和工程师们在
Evo-2 基础上建立起一个生物学的“应用商店”
(App Store)
。
Evo-2 的模型架构、训练程序、数据集和评估概述
与原核生物相比,真核生物的基因组要复杂得多,真核生物的基因是由编码区和非编码区的分散片段组成,而且非编码的调控序列可能远离其所调控的编码序列。而 Evo-2 的长达 100 万碱基对的长上下文窗口,使其具备了理解真核生物基因组的能力。
验证实验显示,Evo-2 能够预测跨越所有生命域的
基因突变的功能影响,包括非编码序列的致病突变,还能准确预测人类乳腺癌相关的
BRCA1
基因突变
(在预测良性突变和潜在致病突变方面准确率超过 90%),
而无需针对任务特定进行微调。
研究团队还验证了 Evo-2 的生成能力,
Evo-2
能够从头生成
线粒体基因组序列
、
原核生物
(细菌)
基因组序列
以及
真核生物
(酵母)
整个染色体序列
,其生成序列的自然性和连贯性优于以前的方法。此外,Evo-2 还能通过推理时搜索
(inference-time search
,指 AI 模型推理阶段动态调整搜索策略以优化输出结果)
,可控地生成
表观基因组
结构。
需要指出的是,从安全角度考虑,研究团队从 Evo-2 的基本数据集中排除了能够感染人类和其他复杂生物的病原体,并确保 Evo-2 不会对有关这些病原体的查询提供有效答案。
Evo-2 在包括细菌、植物、动物以及人类的大量物种的基因组序列中进行了训练,其预测和生成能力可应用于医疗保健、药物研发、农业技术、合成生物学以及材料科学等各个领域。
在
医疗保健
和
药物研发
方面,Evo-2 能够帮助寻找人类疾病的遗传原因,揭示基因表达与疾病之间的关联,帮助设计治疗疾病的新型分子,从而加速新药研发,节省进行细胞实验或动物实验所需的大量时间和研究资金。