本文转自微信公众号“ 智药局”,作者:王苏。
生物学大模型又迎新里程碑!
就在今天,来自Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了
生物学大模型Evo2
。
团队称, Evo 2 是
迄今为止最大的公开 AI 生物学模型
,
完整版
高达400亿参数,包含12.8万个物种的9.3万亿个核苷酸。
它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。
作为基因组基础模型,具有生成整个基因组、预测突变、理解非编码DNA的能力,可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。
此外,Evo2是生物学领域最大规模的全面开源模型之一,发布了包括训练数据、训练和推理代码以及模型权重,引爆了学术界。
这也意味着,人类能够已经具备重写生命最底层代码——基因组的能力,这将打开新生物技术时代的大门。
Evo2震撼发布,多重升级
如果说, DeepSeek是以文字作为大模型基础,那么 Evo2 则以基因组数据为基础,不过它生成的不是文本,而是基因组序列。
在Evo一代中, 科学家们使用了
80,000 种
细菌和古细菌的基因组,并在此以单核苷酸分辨率进行训练,使其模型能够完成全基因组规模的预测任务和生成设计。
而Evo2在各个方面进行了重大升级,整体能力也进行了巨大的飞跃。
首先,Evo2的数据量庞大,完整版包含
400 亿参数
,远超一代的70亿参数规模。
Evo2在
12,8000万个物种
(包括人类和其他动物、植物和其他真核生物)的基因组上训练,这些基因组总共包含
9.3 万亿个核苷酸。
其次,Evo2使用
stripedhyena2
作为模型架构,和当前普遍transformer架构不同,它不仅能够响应速度更快,还能够捕捉基因组的相互作用,自主学习外显子—内含子边界,以及转录因子结合位点等信息。
Evo2显著扩大了上下文窗口,
能一次性处理多达100万个碱基对
,这种能够大规模处理能力对于基因组非常重要,因为它有助于处理基因组中的长序列,也意味着计算生物学的重大进展。
图:Evo 2 的模型架构、训练过程、数据集和评估的概述
下游任务方面,Evo2能够执行跨
DNA、RNA 和蛋白质的通用预测和设计任务。
此前Evo1生成世界上第一个人工智能生成的 CRISPR-Cas 系统,这是一种蛋白质和 ncRNA(非编码 RNA)的大型功能复合物。
而利用Evo2,研究人员分别创建了
酵母染色体、人类线粒体基因组 、生殖支原体的原核基因组
(常用的最小基因组模型),证明了其生成能力。
此外,Evo2还擅长识别人类基因中的致病突变,甚至通过深刻理解意味着它可以识别不同生物体的基因序列模式,而实验研究人员则需要数年时间才能发现这些模式。
在技术层面,要在核苷酸精度上训练多达400亿参数并不容易,甚至OpenAI 的联合创始人兼总裁
Greg Brockman
在休假期间都在花时间处理这个问题。
最终还是老黄出马支持了这个项目。
官方表示,Evo2在英伟达DGX Cloud AI 平台上训练,使用了