专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
51好读  ›  专栏  ›  生信人

史上最大开源AI生物学模型发布,规模堪比ChatGPT!却仍敌不过四年前的结构模型?

生信人  · 公众号  · 生物  · 2025-04-10 07:00

正文

请到「今天看啥」查看全文


2025年,人工智能领域迎来大爆发,DeepSeek-R1、o3-mini Grok3等各大厂商最新、最强大模型相继问世。紧接着,2月20日,生物领域也迎来重大突破——由Arc 研究所 、英伟达、斯坦福大学等机构联合研发的 Evo2正式问世。


Evo2在原有的基础上实现了重大升级,远超一代的70亿参数规模 同时,其训练数据涵盖 128,000个物种( 包括人类、动物、植物及其他真核生物 ),总计 9.3万亿个核苷酸,使 Evo 2 能够做出比以前任何生物学 AI 模型更广泛的预测 [1]


  • 规模堪比 ChatGPT Evo-2的规模堪比当前最强大的生成式AI大语言模型,但它专注于生物学领域!

  • 训练效率超高: 仅用2000多个H100 GPU就完成了训练!

  • 完全开源: Evo-2完全开源,这意味着全球的科学家和研究者都能用它来推动生命科学的研究!

Evo2与其他大模型的对比

ChatGPT一样,Evo 2是一个大型语言模型。它是使用类似 transformer 的架构构建的,这是一种神经网络。 虽然市面上已经存在 许多大型生物学语言模型,但以前的模型比 Evo 2更狭隘。例如蛋白质语言模型 ESM ,它可以捕获蛋白质结构和功能的某些方面, 却不能用在 DNA或RNA。DNABert 则只 专注于 DNA Evo 1使用3000 亿个来自单细胞生物的核苷酸进行训练,该模型可以预测突变如何改变基因表达,但仅适用于原核生物。

Evo 2 学习 DNA的语言 ,但可以预测生物学的方方面面

该模型以 API形式提供,研究人员可使用NVIDIA的BioNeMo框架免费微调 如果你恰好有一块 H100的显卡,可以参考notebook上的代码)。 下面带大家快速过一遍正文内容。

方法概述

Evo 2 的训练采用两阶段策略 第一阶段针对较短的上下文进行预训练,第二阶段扩展上下文至 100万个碱基对,以捕捉广泛的生物学模式 。它的 “StripedHyena 2”架构使得处理长序列成为可能,从而提升了计算效率和预测精度。

StripedHyena 2架构示意图

主要 结果

1、 突变效应预测

Evo 2通过学习广泛的进化数据集中的序列可能性,能够在不进行任务特定微调或监督的情况下,实现对突变效应的零-shot预测,涵盖了 DNA、RNA和蛋白质序列及其在不同生命领域 中的作用。

Evo2在不同生物领域中的强大预测能力

Evo 2不仅能预测突变在编码序列中的影响,还能够处理 非编码序列和全基因组范围 内的突变效应。

Evo 2不仅能预测突变在编码序列中的影响,还能够处理非编码序列和全基因组范围内的突变效应

2、 Evo 2能够准确预测人类临床变异效应

Evo 2展示了其在预测人类临床变异效应方面的强大能力,尤其是在 非编码区和剪接变异的预测 中表现突出。 同时 能够准确区分 失功能和功能性变异,并在多种数据集上超越其他模型,特别是在 BRCA1和BRCA2基因的变异预测中设立了新的基准。

Evo 2准确预测人类临床变异效应

3、 Evo 2能够捕捉到广泛的生物学信号

Evo 2能够捕捉到广泛的生物学信号,包括 转座元件、调控基因元件、蛋白质二级结构以及突变严重性 等。通过 SAE模型,Evo 2不仅能够识别基因组中的功能性特征,还能够发现新的生物学模式。

Evo 2特征的学习过程

4、 Evo 2具有广泛的生成能力

Evo 2能够在多个物种中生成类似于天然基因组的DNA序列,包括 细胞器基因组、原核生物和真核生物基因组 生成的基因组包含编码区和非编码区,且在 结构和序列上与天然基因组相似

Evo 2具有广泛的生成能力

5、 Evo 2可以进行表观基因组设计

Evo 2 可以 用于基因组序列的生成, 结合了表观基因组学的设计方法。该方法通过引入 Enformer和Borzoi模型来引导Evo 2生成序列,并利用这些模型 预测染色质 可及 ,从而实现对 生成序列中染色质 可及 性的控制

表观基因组设计的首次推理时扩展结果

最好的序列模型依然敌不过结构模型?

蛋白结构预测

ESM3论文发表时 [2] ,其研究者就已经做过 ESMfold与AlphaFold2在蛋白结构预测的对比, AF2在所有数据集上均优于 ESMFold ,特别是在 CASP14 和CASP15这两个更难的数据集上,AF2领先更明显。ESMFold只在CAMEO这种相对简单的数据集上,和AF2差距较小。 AlphaFold2在蛋白质结构预测上整体优于ESMFold。


ProGen、Evo、ESM3能生成蛋白的功能很炫酷, 但其生成的序列跟自然界的序列相似度 80%,结构一模一样 序列模型生成的蛋白仍是 “照葫芦画瓢”。


Transformer再强,终究是为人类语言而生,Self-Attention是大脑理解文字的机制,不是生物体编码基因的原理。AF专攻结构,在训练时得到了更多生物学意义的信息, 而序列模型需要等待一个专门针对生物序列开发的 “生物界Transformer” Evo2会是那一个吗?


写在最后

今天的研究人员经常花费数月时间试图弄清楚基因突变是否会导致疾病,这仅仅是因为实验室实验速度很慢。但 Evo 2可以在短短几秒钟内准确预测致病性突变。相同的模型还可以在酵母染色体或小细菌基因组的规模上生成全新的 DNA 序列。


尽管未来在实验验证和多尺度融合方面仍需持续探索,但 Evo2已为构建智能、高效的生物系统设计平台奠定了坚实基础,并为全球科研人开启了进一步探索生物科技创新的新途径。


参考文献:

[1] bioRxiv preprint doi: https://doi.org/10.1101/2025.02.18.638918;

[2] Hayes T, Rao R, Akin H, Sofroniew NJ, Oktay D, Lin Z, Verkuil R, Tran VQ, Deaton J, Wiggert M, Badkundri R, Shafkat I, Gong J, Derry A, Molina RS, Thomas N, Khan YA, Mishra C, Kim C, Bartie LJ, Nemeth M, Hsu PD, Sercu T, Candido S, Rives A. Simulating 500 million years of evolution with a language model. Science. 2025 Feb 21;387(6736):850-858. doi: 10.1126/science.ads0018. Epub 2025 Jan 16. PMID: 39818825.


最新文章汇总 (持续更新ing)


最新热点方向

1、 去年才出的review,今年就有顶刊了——神经免疫

2、 医之侠者:中国肺癌领军人物吴一龙

3、 陈志坚成果汇总|大概率是华人下一位诺奖获得者

4、 《Nature》中肠道菌群研究的正确打开方式

5、 这文章才十来分,是被nature撤稿影响了吗?


生信人课堂

1、 多组学水平的孟德尔随机化分析套路

2、 单细胞+空转王炸组合,探索骨骼肌纤维化巨噬细胞

3、 以小博大,紧张刺激:肿瘤耐药研究,从基因到网络

4、 零基础入门-单细胞课程

5、 史上最全格局打开,细讲基因组学,确定不来学学?


测序严选 | 课题设计  |  分析定制

标书文章  |数字产品

概普生物 让科研丰富

图片
生信人

专注于基因技术相关知识分享
扫码关注 获取更多






END








请到「今天看啥」查看全文