专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
芋道源码  ·  监控系统选型,一篇全搞定! ·  13 小时前  
芋道源码  ·  如何应对消息堆积? ·  昨天  
芋道源码  ·  Cloudflare ... ·  昨天  
51好读  ›  专栏  ›  Dots机构投资者社区

生物版Deepseek来了!斯坦福、英伟达祭出史上最大开源AI生物学模型,400亿参数引爆学界

Dots机构投资者社区  · 公众号  ·  · 2025-02-22 08:15

正文

本文转自微信公众号“ 智药局”,作者:王苏。

图片


生物学大模型又迎新里程碑!


就在今天,来自Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了 生物学大模型Evo2


图片



团队称, Evo 2 是 迄今为止最大的公开 AI 生物学模型 完整版 高达400亿参数,包含12.8万个物种的9.3万亿个核苷酸。


它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。


作为基因组基础模型,具有生成整个基因组、预测突变、理解非编码DNA的能力,可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。


此外,Evo2是生物学领域最大规模的全面开源模型之一,发布了包括训练数据、训练和推理代码以及模型权重,引爆了学术界。


这也意味着,人类能够已经具备重写生命最底层代码——基因组的能力,这将打开新生物技术时代的大门。


图片

Evo2震撼发布,多重升级


如果说, DeepSeek是以文字作为大模型基础,那么 Evo2 则以基因组数据为基础,不过它生成的不是文本,而是基因组序列。


在Evo一代中, 科学家们使用了 80,000 种 细菌和古细菌的基因组,并在此以单核苷酸分辨率进行训练,使其模型能够完成全基因组规模的预测任务和生成设计。


而Evo2在各个方面进行了重大升级,整体能力也进行了巨大的飞跃。


首先,Evo2的数据量庞大,完整版包含 400 亿参数 ,远超一代的70亿参数规模。 Evo2在 12,8000万个物种 (包括人类和其他动物、植物和其他真核生物)的基因组上训练,这些基因组总共包含 9.3 万亿个核苷酸。


其次,Evo2使用 stripedhyena2 作为模型架构,和当前普遍transformer架构不同,它不仅能够响应速度更快,还能够捕捉基因组的相互作用,自主学习外显子—内含子边界,以及转录因子结合位点等信息。


Evo2显著扩大了上下文窗口, 能一次性处理多达100万个碱基对 ,这种能够大规模处理能力对于基因组非常重要,因为它有助于处理基因组中的长序列,也意味着计算生物学的重大进展。


图片

图:Evo 2 的模型架构、训练过程、数据集和评估的概述


下游任务方面,Evo2能够执行跨 DNA、RNA 和蛋白质的通用预测和设计任务。 此前Evo1生成世界上第一个人工智能生成的 CRISPR-Cas 系统,这是一种蛋白质和 ncRNA(非编码 RNA)的大型功能复合物。


而利用Evo2,研究人员分别创建了 酵母染色体、人类线粒体基因组 、生殖支原体的原核基因组 (常用的最小基因组模型),证明了其生成能力。


此外,Evo2还擅长识别人类基因中的致病突变,甚至通过深刻理解意味着它可以识别不同生物体的基因序列模式,而实验研究人员则需要数年时间才能发现这些模式。


在技术层面,要在核苷酸精度上训练多达400亿参数并不容易,甚至OpenAI 的联合创始人兼总裁 Greg Brockman 在休假期间都在花时间处理这个问题。


最终还是老黄出马支持了这个项目。 官方表示,Evo2在英伟达DGX Cloud AI 平台上训练,使用了







请到「今天看啥」查看全文