专栏名称: 药渡
药渡以自有药物大数据为依托,对上市及临床在研药物、药物研究进展和重要药物市场商业动态作出信息整合分析,传递最新最快最具价值的药物创新一手资讯
目录
51好读  ›  专栏  ›  药渡

生物学DeepSeek来了!华人学者联合英伟达推出最大生物学AI模型,完全开源,可生成所有生命的基因组,甚至从头设计生命

药渡  · 公众号  · 药品  · 2025-02-22 07:30

正文


撰文丨王聪

2025 年 2 月 19 日,生物学领域的一个 重要里程碑 诞生了!


Arc 研究所的 Patrick Hsu Brian Hie 团队联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校以及英伟达的科学家,发布了 有史以来最大的 生物学人工智能模型 (AI model for biology) —— Evo-2 ,其在规模上堪比当前最强大的生成式人工智能大语言模型 ,但其训练仅使用了 2000 多个英伟达 H100 GPU,且该模型完全开源。


该模型训练了从单细胞的细菌、古菌到真核生物以及多细胞的植物以及人类的生命之树中的 12.8 万个基因组 DNA 序列,从而能够 实现对所有生命域的理解、建模和设计遗传密码,从头开始编写整个染色体,甚至从头设计生命,还能准确预测所有类型的基因突变 (包括编码基因和非编码基因) 的影响。


Evo-2 的训练使用了 2000 多个英伟达 H100 GPU,并得到了英伟达研究人员和工程师的合作支持。更重要的是 Evo-2 是 完全开源 ,在 GitHub 上共享了模型参数、训练代码、推理代码以及训练使用的 OpenGenome 2 数据集。世界各地的研究人员可以通过英伟达 BioNeMo 平台免费访问以及部署 Evo-2。



Evo-1


2024 年 11 月 15 日, Patrick Hsu Brian Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为: Sequence modeling and design from molecular to genome scale with Evo 的研究论文,该论文还被选为当期的封面论文。


该论文发布了首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型—— Evo


Evo 是在 原核生物 (细菌、古菌) 噬菌体 的基因组上进行训练,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列。研究团队使用 Evo 生成了 CRISPR-Cas 分子复合物和 IS200/IS605 转座子,并验证了它们的功能活性,这是首次通过语言模型实现蛋白质- RNA 和蛋白质- DNA 协同设计的实例。


图片

图片

值得一提的是, Patrick Hsu 是 CRISPR 基因编辑先驱 张锋 教授的第一届研究生,现为 Arc 研究所联合创始人、加州大学伯克利分校助理教授。2024 年 6 月 26 日, Patrick Hsu 连发两篇 Nature 论文,开发了一种基于 桥 RNA (Bridge RNA) 的新型基因编辑工具,其能够在特定基因组位点插入、倒位或删除。

Evo-2

Evo-2 的前身 Evo 完全是在单细胞生命的基因组上进行训练的,而 Evo-2 进一步将其训练数据扩展到了生命的所有域——从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的真核生物,总计 12.8 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸 ,训练参数高达 400 亿 Evo-2 有两个版本,训练参数分别是 70 亿和 400 亿

此外,Evo-2 使用了 StripedHyena 2 架构,这是一种新的卷积混合架构,结合了多种不同的操作符,相比 Transformer 架构,能够大幅提高训练速度和推理效率。Evo-2 的训练分为两个阶段:预训练阶段和中训练阶段。预训练阶段使用 8192 碱基对的上下文窗口,专注于功能性遗传元件;中训练阶段将上下文窗口扩展到 100 万碱基对,以学习长基因组距离之间的作用 (真核生物中调控序列与基因序列之间距离可能很远)

Patrick Hsu 表示, Evo 和 Evo-2 代表了新兴生成式生物学领域的一个关键时刻,这些模型已经使机器能够用核苷酸的语言来读、写以及思考。Evo-2 对生命之树有着全面的理解,这对许多任务都很有用,从预测致病突变到设计人工生命。期待科学家和工程师们在 Evo-2 基础上建立起一个生物学的“应用商店” (App Store)

Evo-2 的模型架构、训练程序、数据集和评估概述

Evo-2 的 预测能力

与原核生物相比,真核生物的基因组要复杂得多,真核生物的基因是由编码区和非编码区的分散片段组成,而且非编码的调控序列可能远离其所调控的编码序列。而 Evo-2 的长达 100 万碱基对的长上下文窗口,使其具备了理解真核生物基因组的能力。

验证实验显示,Evo-2 能够预测跨越所有生命域的 基因突变的功能影响,包括非编码序列的致病突变,还能准确预测人类乳腺癌相关的 BRCA1 基因突变 (在预测良性突变和潜在致病突变方面准确率超过 90%), 而无需针对任务特定进行微调。

Evo-2 的 生成能力

研究团队还验证了 Evo-2 的生成能力, Evo-2 能够从头生成 线粒体基因组序列 原核生物 (细菌) 基因组序列 以及 真核生物 (酵母) 整个染色体序列 ,其生成序列的自然性和连贯性优于以前的方法。此外,Evo-2 还能通过推理时搜索 (inference-time search ,指 AI 模型推理阶段动态调整搜索策略以优化输出结果) ,可控地生成 表观基因组 结构。

跨越生命域的基因组规模的生成能力

需要指出的是,从安全角度考虑,研究团队从 Evo-2 的基本数据集中排除了能够感染人类和其他复杂生物的病原体,并确保 Evo-2 不会对有关这些病原体的查询提供有效答案。

Evo-2 的潜在应用

Evo-2 在包括细菌、植物、动物以及人类的大量物种的基因组序列中进行了训练,其预测和生成能力可应用于医疗保健、药物研发、农业技术、合成生物学以及材料科学等各个领域。

医疗保健 药物研发 方面,Evo-2 能够帮助寻找人类疾病的遗传原因,揭示基因表达与疾病之间的关联,帮助设计治疗疾病的新型分子,从而加速新药研发,节省进行细胞实验或动物实验所需的大量时间和研究资金。

农业技术 方面, Evo-2






请到「今天看啥」查看全文