专栏名称: 范阳
Being more human, less perfect.
目录
相关文章推荐
Python爱好者社区  ·  梁文锋和杨植麟,论文撞车了!! ·  3 天前  
Python中文社区  ·  三年稳赚40倍!用布林带挤压策略跑赢特斯拉 ·  3 天前  
Python开发者  ·  成人玩偶 + ... ·  5 天前  
Python爱好者社区  ·  DeepSeek彻底爆了! ·  5 天前  
Python爱好者社区  ·  DeepSeek 被放弃了,阿里牛逼! ·  4 天前  
51好读  ›  专栏  ›  范阳

Evo 2:DNA 语言模型实用性的苏格拉底式对话(上)

范阳  · 公众号  ·  · 2025-02-23 15:09

正文

在人工智能重塑生命科学的浪潮中,我觉得当下 Arc Institute 是最有下一个 OpenAI 气质的新型组织。从 2021 年起我开始关注他们的动向。他们现在开始逐渐进入主流视野,像是 GPT-2 发布的 OpenAI。Arc Institute 刚成立的时候出现在社交媒体上的新闻标题是:“硅谷富豪为瑞士科学家妻子捐建 6.5 亿美金的科研机构。” 除了有人解决 long term 资金的问题, 他们最强的是有顶级人才和长远的技术洞见,也愿意从 0 到 1 探索开创性的工作和生物领域的通用技术。

生物技术领域没有 PMF ( 产品市场匹配 ),最通用的需求和最高的圣杯一直摆在那里。

Arc Institute 的两位联合创始人:Patrick Hsu 与 Silvana Konermann,以及主要出资人 Patrick Collison,Stripe 的联合创始人与 CEO。

回到现实,生命科学背后的“语言”和操作代码,对于人类来说依然是一部复杂性非常高的“天书”,但是机器学习和越来越强大的人工智能正在帮助解读这部 “天书”。Evo 2 是最新的一个工具,可以帮助解读基因组的语言,预测 DNA 变异的功能性和预防病变,甚至学习到一些超出人类固有认知的生物学知识。

这张图可能是计算生物学家经常用来吓住观众的一张图。


你可以在这个链接操作或者体验 Evo 2

https://arcinstitute.org/tools/evo/evo-designer

而 Arc Institute 最大的启发是一个围绕新的技术洞察而构建的全新科研组织模式,团队非常精简,但是就像他们的核心科学家 Hani Goodarzi 采访时说到的: 真正的挑战是如何构建一个真的能合作起来的多学科团队,即使你知道不是每个成员都具有全栈多学科能力。

Arc Institute 的组织和工作方式以后我们再来分享。今天这篇文章来自于 Owl ( 他的真名是 Abhishaike Mahajan ), 他也是 Asimov Press 的撰稿人和研究者社区的一员。他在 Evo 2 发布之后第一时间研读了论文,也与人工智能对话切磋,用苏格拉底启发式对话的形式写了这篇博客文章。

延伸阅读:Owl 为 Asimov Press 撰写的文章—生命模型

生命模型 | Asimov Press 独家

我阅读完最感兴趣的部分是,DNA 语言模型能不能真正拓展人类对基因和基因组的认知边界? 还有那些藏在人类没去了解过的“非模式生物”以及其他进化路径当中的“隐藏暗知识”会是什么? Evo 2 是开源的,未来很可能会催生这项技术的民主化和去中心化研究,让更多人去对 “冷门物种” 的基因组的进行创造性的探索,这肯定也会突破人类现在对生物学的认知。未来非常让人值得期待。

感谢 Abhishaike Mahajan 的无私分享,也希望这篇文章对你有启发。



关于DNA语言模型实用性的苏格拉底式对话(上)

A socratic dialogue over the utility of DNA language models (Part 1 of 2)

作者: Abhishaike Mahajan

编辑:范阳

发表日期:2025年2月21日


1. 引言

Introduction

2. 对话

The dialogue


注:我和大家一样不喜欢分成多篇的系列文章。但无奈的是,现在太卷太难了。这部分内容主要讨论用于预测变异致病性的 DNA 语言模型,特别是Arc Institute 刚刚发布的 Evo 2。下一部分将探讨它们在基因组生成( genome generation )中的应用。我知道 DNA 语言模型( DNA language models )在其他方面( 如蛋白质适应性 )( protein fitness )也有用处,但 变异预测和基因组生成 ( variant prediction and genome generation )是我最感兴趣的两个领域。

范阳注:Evo2 是开源的“多模态和多尺度”生命科学大模型。

https://arcinstitute.org/manuscripts/Evo2



引言

Introduction


我觉得,我和这个领域的许多人一样,生活在一个看似平行的宇宙中,我们并不真正理解为什么有人会研究 DNA 语言模型。我说“平行”宇宙,是因为显然在另一个世界里,一些非常聪明的人对它们非常看好:特别是 Arc 研究所( Arc Institute )。

就在昨天,他们发布了一篇让许多人兴奋的论文:Evo 2,这是原创 Evo 模型的后继升级版。新闻报道文章中提到:

Arc 研究所的研究人员开发了一种名为 Evo 2 的机器学习模型,它基于整个生命树上超过 10 万种生物的 DNA 进行训练。由于对生物编码的深度理解,Evo 2 能够识别不同物种基因序列中的模式,而实验研究人员可能需要数年才能发现这些规律。 该模型能够准确识别人体基因组中导致疾病的突变,并且可以设计出长度与简单的细菌基因组相当的全新基因组。

Evo 2 是 Evo 1 的升级版,后者仅基于单细胞生物的基因组训练。Evo 2 是迄今为止规模最大的生物学人工智能模型( the largest artificial intelligence model in biology ),训练数据涵盖超过 12.8 万个完整基因组及宏基因组数据,总计超过 9.3 万亿个核苷酸( DNA 或 RNA 的基本组成单位 )。除了更广泛的细菌、古菌和噬菌体基因组外,Evo 2 还纳入了人类、植物以及其他单细胞和多细胞真核生物的数据。

延伸阅读: 极端生物技术:利用机器智能,学习整个生命树的超能力。

从表面上看,这似乎很酷且显然令人印象深刻。对吧?你读到这些内容时,本能地会想,“哇,太棒了!”。但如果你接着问“ 为什么会有人需要这个? ”,你会发现并没有太多资源可供参考( 尽管我确实喜欢 Asimov Press 最近关于这个话题的文章 )。

范阳注:Evo 2 Can Design Entire Genomes

https://www.asimov.press/p/evo-2

至少在论文之外,这有点难以立即理解。对于蛋白质折叠,像 Alphafold2 这样的工具的用途是显而易见的:如果你能预测蛋白质的三维结构,就可以设计能与其结合的分子,甚至直接用模型来生成结合体( even use the model to generate binders)!

而如果你有一个对 DNA 序列有很强潜在理解的模型 ( If you have a model that has a really good latent understanding of DNA sequences ), 你……究竟能做什么?

也许对某些人来说,这个问题的答案不言自明,但对我这样一个非基因组学领域的人而言,就并不那么清晰。所以这篇文章就来探讨这个问题。

我最擅长通过苏格拉底式对话( Socratic dialogue )学习,本质上就是通过提问和回答,在讨论中推动思考。这篇文章也会采用同样的方式,但讨论的对象是 DNA 语言模型。

值得注意的是,这篇文章并不是专门探讨 Evo 2( 尽管我会经常提到它 ),而是更关注这种模型到底能带来什么实际价值。因此,文章不会涉及数据细节或模型架构,除非这些内容对讨论应用场景是必要的。


对话

The dialogue


显而易见的第一个问题:为什么要构建 DNA 语言模型( why make a DNA language model at all )?

从本质上看,它最终只能告诉你一段 DNA 是否“自然”( if a stretch of DNA looks ‘natural’ ),或者如何填补缺失的 DNA 片段( how to infill in a section of missing DNA )。这有什么其他意义呢?

显而易见的问题应该有显而易见的答案:

前者——判断 DNA 是否“自然”( naturalness )——实际上意味着可以预测基因突变的影响,例如, 这种突变是否会对宿主造成损害 ( whether or not it is deleterious to the host )。我们先聚焦在这一点上。

目前,如果你测序了某人的基因组,并发现了一个突变,你通常无从得知它是否重要,除非它已经被深入研究过。如果这个突变已知会导致疾病,那很好,问题解决了。 但如果只是某个奇怪的非编码区的碱基替换呢 ( what if it’s a random nucleotide switch in some weird noncoding region )?它会破坏某个调控元件( regulatory element )吗?会微妙地影响剪切过程( splicing )吗?还是说它根本无关紧要? 人类基因组中存在数百万种遗传变异,而我们只了解其中一小部分的作用 。Evo 2 可能帮助我们识别那些真正有害的突变。

如何做到? Evo 2 只能告诉我们一段 DNA 在统计意义上有多“异常” ( All Evo 2 can say about a stretch of DNA is how unusual it looks )。它是不是简单地将变异的危害程度等同于它的低对数似然值(LL)( Is the model equating a variant being harmful with it having a low log likelihood (LL))?如果是这样,把“非自然性”( non-naturalness )直接归因于“危险的”似乎有点牵强。

它确实是这么做的!

我理解你对将“非自然性”与“危险”等同起来的犹豫,但这并不是一个巨大的跳跃。 进化是一个概率引擎 ( Evolution is a probability engine )。如果某个特定的基因序列( genetic sequence )在数千个个体中存在了数千年( 甚至数百万年 ), 这表明它在进化上是稳定的 ( evolutionarily stable )。它是有效的,不会杀死你。 如果一个从未见过的突变突然出现,这并不一定意味着它是有害的,但这确实意味着进化还没有机会对它进行审查 (evolution hasn’t had the chance to vet it yet)。这也( 很可能 )意味着它确实是有害的。

事实上,你是否完全接受这一逻辑并不重要,因为遗传学家们几十年来一直在使用类似的思维方式,并且效果还不错。传统的致病突变注释方法很大程度上依赖于保守性评分( conservation scores ),比如 PhyloP,它们的核心假设是,高度保守区域的突变更有可能是有害的,或者至少值得仔细研究( mutations in highly conserved regions are more likely to be harmful, or at least worth taking a closer look at )。Evo 2 本质上在做同样的事情,只不过规模要大得多。

所以…… 就像 AlphaFold2 本质上“只是”在做蛋白质的同源匹配( homology matching for proteins ),Evo 2 也“只是”在做 DNA 的保守性评分?

你可以这么认为,但……我们稍后会在文章中讨论一个更细致的观点。真正的希望是,它实际上在做比这更深层次的事情。不过,这种类比确实是一个有用的思维框架!

另外,值得一提的是,作者确实通过评估 Evo 2 在 BRCA1 变异上的表现来验证了“ Evo 2 可能擅长发现有害变异 ”( Evo 2 may be good at finding bad variants )这一说法。当有人说他们有 BRCA1 突变时,他们通常指的是那些已知的致病变异,比如 185delAG 或 5382insC,这些变异会导致移码突变,完全破坏蛋白质的生成。但 BRCA1 中的其他突变呢?大多数突变并不会导致移码。它们可能是单核苷酸替换、插入或缺失,这些突变不会明显破坏整个蛋白质,甚至可能是 BRCA1 周围非编码调控区域的突变。对于许多这样的突变,理解它们的影响并不那么明确。

那么,Evo 2 能帮上忙吗?

为了回答这个问题,作者给模型提供了4,000个BRCA1基因的突变变体(来自一项诱变研究),涵盖编码区和非编码区,并要求模型挑选出哪些变异会导致基因功能的完全丧失。没有标签,只有原始的核苷酸序列( No labels, just the raw nucleotides )。结果 Evo 2 表现相当不错:

他们具体是怎么做的呢?比如,给定一段 BRCA1 突变序列,Evo 2 会输出它存在的可能性。如何将这种可能性转换为“功能丧失”( loss of function )或“功能未丧失”( no loss of function )呢?

方法是,在 Evo 2 上分别运行两次前向传播( you do the forwards pass on Evo 2 twice ),一次使用参考序列( 正常 BRCA1 基因 ),一次使用突变序列。然后计算两者的对数似然( LL )并进行比较。如果突变 DNA 的似然值远低于正常序列( 即不符合预期 ),那么就会被解释为 BRCA1 功能丧失。但它不会将这个差异简单二值化,而是对所有突变进行排序,并基于此计算 AUROC。

但…… 这是否意味着 Evo 2,或者说DNA语言模型这一类工具,都无法直接判断某个突变是否致病? 比如,对于BRCA1,我们有一个干净、大规模的数据集,可以用来找到一个合适的阈值,以确定对数似然差异达到多大时可以将变异定义为致病性。但我怀疑,对于大多数其他基因,我们无法做到这一点。这是否会大大( dramatically)降低整个系统的实用性?

我认为说“大大降低”有点悲观,但你的核心观点是对的。 Evo 2目前无法直接做出“这是致病性突变”或“这是良性突变”的判断,你仍然需要某种外部验证 (Evo 2 cannot currently do a ‘this is pathogenic’ or ‘this is benign’ call, you still need some kind of external validation)——无论是临床数据、功能实验,还是像 BRCA1 诱变研究那样的大规模预标记数据集(clinical data, functional assays, or a huge pre-labeled dataset like the BRCA1 mutagenesis study )——来实际解释对数似然值差异的意义。

因此,在实际应用中, Evo 2 更像是一种启发式工具 ( Evo 2 will almost certainly look like something closer to a heuristic ),类似于保守性评分( conversation scores )的作用, 主要用于突变的筛选和优先级排序,而不是直接给出最终结论 。只不过它在这一任务上的表现比传统方法更好。

听起来有点道理。我想关于致病性变异检测( pathogenic variant detection )的最后一个问题是……为什么要做这个?意义何在?( why do this at all? what’s the point?)我理解消费者能够去遗传咨询师那里,听到比“意义未明的变异”更具体的解释,这有一定的潜在好处。这没问题。但……我不知道, 我对消费级基因组学这个品类( consumer genomics as a category )有点悲观。感觉它并没有真正解决问题,只是指出了问题所在。

标准答案是,提前发现疾病往往比你想象的更重要。对于许多疾病来说,早期干预至关重要。 如果我们能通过 Evo 2 这样的模型更早识别出高风险突变,就能让患者更快获得必要的治疗。

但你在这里触及了 DNA 语言模型整体实用性的一个重要问题。 它们在真正帮助治愈疾病方面的实用性,而不仅仅是帮助更早干预, 确实强烈依赖于对 DNA 某种程度上的简单性假设。( Their utility in actually helping cure things, instead of just helping intervene earlier, does strongly hinge on assuming some level of simplicity of DNA )。

比如,我们知道精神分裂症具有高度遗传性( schizophrenia is highly heritable ),但我们一直未能确定其遗传基础。我们知道心脏病有很强的遗传成分,但除了少数已知的风险等位基因( 如 PCSK9 或 APOE ),大多数遗传性都与数千个微小效应变异相关,而这些变异我们尚未完全理解。对于像自闭症这样的神经发育障碍( neurodevelopmental disorders ),我们非常确定遗传是一个重要驱动因素,但没有人能很好地描绘出它的全貌。

也许 Evo 2 能帮助我们找到这些关键突变,从而为药物研发或基因治疗提供更好的靶点。但也可能, 我们所处的世界本身就是一个复杂性难以拆解的系统 ( maybe we live in the universe where all of it is too hard to disentangle )。Evo 2说“这个突变不寻常”并不能让我们真正更接近对疾病的理解。 也许像精神分裂症这样的复杂疾病,并不是由几个关键突变决定的,而是成千上万个小效应突变在特定环境和相互作用下的结果 ( Maybe it’s all thousands of weakly acting variants, all context-dependent ),而一个简单的似然性打分无法捕捉到这种复杂性( a simple likelihood score can’t capture )。更别提,也许还有数十种环境因素混淆了这一切,也是决定性的。


在这种情况下——也是我们当前所处的现实世界——Evo 2 可能只会告诉我们, 大多数遗传风险都是模糊性的、概率性的,并且难以转化为可行动的信息 ( Evo 2 will just tell us that most genetic risk is blurry, probabilistic, and fundamentally hard to act on )。而这些,研究人员其实早就知道了。

当然,也许 DNA 语言模型的进步会改变这一点。也许它们可以利用海量数据,分析相隔数百千碱基的突变,并且完全基于无监督学习来识别复杂模式( maybe DNA language models change this by taking into account a huge number of datapoints and being able to consider mutations hundreds of kilobases apart and being entirely unsupervised )。谁知道呢?

这是个相当悲观的看法, 所以这个模型有可能完全没用吗?

不至于。但它可能远没有最初宣传的那样具有颠覆性,至少如果我们将“影响”的范围限制在“对人类健康有直接影响的变异发现”上。即使最终我们得出“DNA 依然极其复杂”的结论,DNA 语言模型仍然有它的价值,就像保守性评分( conservation scores )仍然有价值一样。变异的发现可能依然充满不确定性,但了解这些变异本身依然是有用的。毕竟,PCSK9 抑制剂的发现正是源于某个罕见的基因变异。因此,在研发过程中,拥有更好的工具来帮助筛选值得深入研究的变异,本身就是很有意义的。

还有一点值得注意: 像 Evo 2 这样的模型不仅可以应用于人类基因组,同样适用于其他生物的基因组 ( Evo 2 can be applied to non-human genomes )。在变异发现这个范畴里,它在非人类基因组中的潜在价值甚至可能更大。我对这方面的前景比人类遗传学更乐观。研究某个基因区域的功能需要大量的实验,而在人类身上,这项工作( 毫不意外地 )已经被深入开展。

但对于某些冷门的细胞系、罕见的昆虫或难以收集到的鸟类呢?也许能够为这些群体在基因注释方面从 0 到 1 取得进展是非常有用的。不是像我们通过几十年的实验工作对人类所做的那样从 0 到 100,但在研究中,一个启动器( a kickstarter )总是有用的。

我的直觉是,我们已经发现了大多数临床相关的重要基因变异。对于非模式生物可能还有很多未知, 但在人类基因组里,还能剩下多少值得挖掘的东西呢?

这属于“未知的未知”领域( an unknown unknowns thing ),但直觉上,答案依然是“很多”。即便考虑到科学界已经花费了大量时间研究人类基因组,仍然有很多未解之谜。

比如,非编码 DNA 往往具有远距离的相关性( noncoding DNA often have really long range dependencies )。假设你有一个转录因子结合位点,位于其调控基因 10 万个碱基对之外。传统的保守性评分可能会发现这个结合位点在不同物种之间具有保守性,但也可能无法捕捉到它的功能。保守性评分通常只关注单个位置或短片段的碱基。而 Evo 2 则一次性看到整个 10 万个碱基的序列( 实际上它能够一次性看到 100 万个碱基 )。它可以捕捉到远距离元素之间的统计相关性(statistical dependencies between distant elements),即使它们在单核苷酸层面上并不明显相关。这再次表明,它可能是有用的。

真的存在“相距 10 万个碱基对却仍然相互影响的基因区域”,还是你在瞎说?

当然存在,比如增强子-启动子( enhancer-promoter )相互作用。

举个例子,在哺乳动物中,SHH( Sonic Hedgehog )基因受到一个名为 ZRS 的增强子调控,而 ZRS 远在 SHH 基因 100 万个碱基对之外。如果删除或突变 ZRS,即便 SHH 基因本身完好无损,也可能导致严重的发育障碍,比如多指症( polydactyly,额外的手指或脚趾 )。Evo 2 可能会捕捉到这一点。

但这里有个关键问题:假设 Evo 2 发现了 ZRS 对 SHH 的重要性,这对我们来说到底意味着什么?模型可能会认为 ZRS 突变是“低可能性”( low-likelihood )的,并将其标记为潜在有影响的变异,但我们本来就知道 ZRS 很重要。这并不是遗传学中一个未解的谜题。

不过, 我们可以换个角度来看这个问题:Evo 2 理论上可以在没有实验数据的情况下得出这一结论。 无需几十年的增强子筛选实验或染色质互作测定( enhancer screens or chromatin interaction assays ),它只需要看一眼 DNA 序列,就可以说:“这个区域看起来对远处的某个基因很重要。” 这非常有价值,因为尽管我们已经发现了一些这样的远距离调控元件,但仍然不知道基因组中究竟还有多少类似的情况。许多非编码区的遗传病可能就是由这样的远程调控元件突变引起的,而 如果 Evo 2 能够仅凭序列信息识别出这些关系,它就能帮助研究人员筛选出值得优先研究的基因区域 。当然,最终我们还是需要做那些增强子筛选实验和染色质互作测定,但至少我们能一开始就知道该关注哪些区域。

这感觉有点像为一种已知存在的钉子发明的锤子,但我们还没有真正找到那颗钉子( It feels a little bit like a hammer that was invented for a nail that has precedent for existing, but we haven’t actually found the nail yet )。你用了很多“很可能”( probably )这个词。

这不是一个问题,但我不反对这样的描述。

我直觉上认为,像 Evo 2 这样的模型确实能加速当前的变异发现流程, 而我们也确实知道变异发现( variant discovery )是有价值的。但我们目前不知道的是,Evo 2 能加速多少,以及最终有没有人会真正使用它。 可能它的主要应用场景会是帮助研究人员注释某种在加州海岸发现的极罕见细菌的基因组( ultra-rare bacterial species ),就像目前已知的大量致病变异一样,科学家们大多会忽略它。

也可能它会立即在人体基因组研究中展现出极大的实用性,科学家们在使用它后立刻获得十几个新的靶点研究方向。我认为, 这类模型的最终价值并不是某种可以简单运转的“既定公式”,而更像是一种创造力的实验 ( the ultimate utility of it will be an exercise in creativity rather than there being a crank you need to turn )。 像 Arcadia Science 这样的机构,专注于非模式生物的研究,或许能够利用这些模型做出一些真正有趣的突破。







请到「今天看啥」查看全文