专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
都市110  ·  太原赏花热度高!“追花游”成今春新潮流 ·  4 小时前  
都市110  ·  太原赏花热度高!“追花游”成今春新潮流 ·  4 小时前  
二姐财局  ·  国家暗示的很明显了 ·  7 小时前  
并购优塾产业链地图  ·  【旧文重温】储能超预期地图,储能集成系统:阳 ... ·  3 天前  
木紫午盘  ·  三月股市风向大变,如何布局? ·  昨天  
木紫午盘  ·  三月股市风向大变,如何布局? ·  昨天  
人生资本论  ·  为什么这些行业很挣钱,什么情况? ·  2 天前  
51好读  ›  专栏  ›  图灵人工智能

Evo 2作者、斯坦福计算生物学家 Brian Hie:AI可发现人类无法看到的模式

图灵人工智能  · 公众号  ·  · 2025-02-24 00:00

正文

点击上方“ 图灵人工智能 ”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

图片

版权声明

转自ScienceAI,版权属于原作者,仅用于学术分享,如有侵权留言删除
图片

编辑 | ScienceAI

最近,科学家发布了有史以来最大的生物学人工智能(AI)模型 ——Evo 2。

该模型基于 128,000 个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的生命之树,可以从头开始编写整个染色体和小基因组。它还可以理解现有的 DNA,包括与疾病相关的难以解释的「非编码」基因变体。

Evo 2 由美国 Arc 研究所(Arc Institute)和斯坦福大学的研究人员以及芯片制造商 NVIDIA 共同开发,科学家可以通过线上界面使用,也可以免费下载其软件代码、数据和复制模型所需的其他参数。

图片

项目链接: https://github.com/ArcInstitute/evo2

早在去年 11 月,Evo 的第一个版本 (在 80,000 种细菌、古细菌和病毒的基因组上进行训练)就登上了《Science》杂志封面。

图片

Evo 及 Evo 2 的突破是不言而喻的,研究团队是如何实现这些突破的?

在 Evo 2 发布之前,外媒《Quanta Magazine》曾采访 Evo 研究团队主要成员、论文通讯作者 —— 斯坦福大学计算生物学家 Brian Hie,采访围绕 DNA 与人类语言之间的相似之处,Evo 能做什么和不能做什么等话题展开。Brian Hie 表示:「人类很难理解生物序列」,而「Evo 发现了人类无法看到的模式」。

图片

图示:Evo 团队核心成员,Brian Hie(中)。

ScienceAI 对《Quanta Magazine》访谈核心内容进行了不改变原意的编译、整理,内容如下。

是什么让你认为 DNA 可以像语言一样处理?

DNA 本身像人类自然语言一样是序列化的。它是由离散的「token」或构建块组成的序列。我们将人类自然语言 tokenize 为单词、字母或汉字。在生物学中,一个 token 可以对应一个 DNA 碱基对或一个氨基酸。

就像自然语言一样,DNA 也有其自然结构。这些序列并不是随机的。自然语言中的许多结构也是非正式的,可能是模糊的,并且一直在变化。同样地,DNA 序列也有一些模糊性。相同的序列在不同的上下文中可能意味着不同的事物。

怎么想到将 LLM 应用于 DNA?

分子生物学的中心法则是一个非常美丽的东西。它指出 DNA 编码 RNA,RNA 编码蛋白质。所以如果你在 DNA 上训练一个模型,并且它是一个好模型,你就可以免费获得 RNA 和蛋白质的语言建模,因为 DNA 和蛋白质序列之间有直接的对应关系。

你还可以在基因组本身上进行训练:基因在基因组上彼此相邻。当你训练一个蛋白质语言模型时,你基本上会取整个基因组并剪掉所有编码蛋白质的部分,然后分别训练所有这些小部分。但这忽略了蛋白质所在的广阔遗传背景。特别是在微生物基因组中,功能相关的蛋白质在基因组上直接相邻,所以这些蛋白质编码区域在基因组上的顺序很重要,而在蛋白质语言模型中失去了这些信息。

我意识到在更基础的层次上训练模型 —— 从蛋白质下降到 DNA—— 可以扩展模型的能力。

如何训练 Evo「阅读」DNA?

蛋白质和 DNA 语言模型之间的一个重要区别是模型用于进行下一个碱基对预测的序列长度,我们称之为「上下文长度」。上下文长度类似于一个人一次可以看到的小说的一两页。Evo 是在由许多基因组组成的「小说」上训练的。

这需要一些技术发展,因为长的上下文长度消耗大量的计算能力。计算需求随着上下文长度的增加呈二次方增长,但幸运的是,已有一些研究找到了方法来减少长上下文所需计算。斯坦福实验室的一名学生帮我们将相关进展应用到我们的 DNA 模型中。

Evo 的训练数据集也很重要。从蛋白质语言建模中,我了解到序列多样性很重要。当向模型展示生命的进化替代方案,模型就可以利用这些替代方案来学习一般规则。

你是如何测试 Evo 的,它的表现如何?

我们给 Evo 提供了具有各种突变的蛋白质编码 DNA 序列。任务是预测这些突变的「进化可能性」,即它们在自然界中存在的概率。被认为可能的突变应该在实验室中保持或改善蛋白质的功能,不可能的突变应该与功能不良相关。

Evo 没有任何关于功能的明确知识。它只知道过去进化中使用了哪些突变。此外,模型仅在 DNA 上进行训练,没有任何关于 DNA 的哪些部分与蛋白质匹配的指导。因此,Evo 必须弄清楚 DNA 如何编码蛋白质,以及蛋白质在基因组上的起始和终止位置。

我们通过蛋白质功能的实验测试对 Evo 得出的可能性进行了评分。我们发现:如果某个碱基对在 Evo 模型下具有高可能性,那么该碱基对很可能会保持或改善蛋白质的功能;如果该碱基对的可能性较低,那么将其插入序列中很可能会破坏蛋白质功能。

LLM 容易出错,Evo 是否更准确?

对于 ChatGPT,你希望它能准确掌握事实。而在生物学中,这些「幻觉」几乎可以被视为一种特性而非缺陷。如果某个奇特的新序列在细胞中起作用,生物学家会认为这是新颖的。

但 Evo 确实也会犯错。例如,它可能根据某个序列预测出一种蛋白质结构,但当我们在实验室中合成这种蛋白质时,结果可能是错误的。

原文链接: https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/

图片 图片


文章精选:

1. 万字长文详解DeepSeek-R1模型工作原理
2. 巴黎AI峰会,斯坦福教授李飞飞演讲:当前才是"首个真正的AI时代"
3. 图灵奖得主杨立昆万字实录:AI正在加剧社会认知分化






请到「今天看啥」查看全文