专栏名称: 范阳
Being more human, less perfect.
目录
相关文章推荐
21世纪经济报道  ·  租出去,一天最高1.5万元,10多天回本!抢 ... ·  13 小时前  
神嘛事儿  ·  我回答了 @bala-------bala ... ·  2 天前  
51好读  ›  专栏  ›  范阳

生命模型 | Asimov Press 独家

范阳  · 公众号  ·  · 2024-12-11 21:04

正文


我们非常高兴将 Asimov Press 带到中国读者面前。作为新时代最具先锋精神的杂志之一,它如同曾启发了上一代科技浪潮的那些先驱刊物,充满远见与力量。而这一切的起点,仅仅是一个人的愿景,从创立到现在不过一年多。而我们这份合作跨越大洋,源于缘分与互信,更源于我们对“人类繁荣”未来的共同乐观与坚定。即便身处科技飞速发展却混沌未明的时代,我们始终相信人类思想的引领力量。


作为中文版上线的首篇文章,《生命模型》(Models of Life)是 一部预测性的“硬科幻短文” ,也是一篇生物技术与人工智能交织的“未来编年史” 。它让我想起达尔文曾引用的那句拉丁语: Natura non facit saltum(自然无飞跃)。这句话放在当下,或许既“正确”也“不正确”,因为未来充满了多种可能性,而一切事物与人类之间的联系正在日益紧密。“自然”“人性”“科技”的定义都在不断流动与演变。


我们希望通过这些文章与思想激发积极行动,共同创造一个充满富足与善意的未来。


—— Asimov Press 中国团队










关于生物体的统计模型已经存在了几十年。最早的模型依赖于简单的线性回归,试图将基因变异与可观察到的性状或疾病风险(如药物代谢率或癌症易感性)联系起来。随着计算能力的提高和机器学习技术的进步,模型的复杂程度也随之提高。


随着时间的推移,它们被通俗地称为“ 生命模型 ”(models of life)。


这个定义很模糊,但有一些公认的主题。所有的“生命模型”都旨在提高我们对生物学背后的细胞机制的理解,它们既不受人类直觉的限制,也不局限于预先定义的假设。它们在难以简单可视化的高维空间中运作,同时包含了人类思维无法完全理解的大量相互关联的变量层。与通常简化现实的传统科学模型不同,这些模型包含了现实的混乱和无序的本质。


第一个“生命模型”出现在 2022 年或 2023 年的某个时候。


鉴于“生命模型”定义的模糊性,很难确定哪一个发布的项目真正配得上这个称呼。2022 年出现了 scFormer,2023 年 出现了 scGPT,还有很多其他的模型。但无论哪个项目是首个,它们都有一个共同点:都以信使RNA(mRNA)作为理解生命的核心数据机制。


几十年来,人们一直将 mRNA 集合理解为细胞状态的代表。mRNA 是 DNA 和蛋白质之间的中间阶段,是一个动态的实体,根据细胞每时每刻的需求而变化,能够指出细胞是否癌变或处于压力之下,它是什么类型的细胞等等。依赖 mRNA 有很多失败的模式,但它是科学界拥有的最丰富的细胞状态数据来源:仅靠 DNA 太过静态,而蛋白质则过于难以大规模定量分析。


尽管这些最初的“生命模型”之间存在语义差异,但它们的训练方法非常相似。从给定细胞中测序得到的 mRNA 值集合(人体中 20000 个蛋白质编码基因中的每一个基因都有一个值)被随机屏蔽,模型被要求填充它认为应该存在的值,类似于在给出拼图的其他部分的情况下,猜测完整的画面里缺少哪些拼图。如果一个细胞高度表达与细胞分裂相关的基因,那么其他与细胞周期相关的基因也很可能会被表达,依此类推。简而言之,给模型的问题可以表述如下:给定 19980 个 mRNA 值,预测缺失的 20 个 mRNA 值。


尽管 mRNA 数据常常提供洞见,但对其的解释却极为棘手,更像是一门艺术而非科学。这些模型提供了一种更简单的方法来管理此类数据,改进了典型的 mRNA 工作流程,并有可能使新科学见解的产生速度比以往快几十倍。因此,这些早期成果纷纷发表在《Nature》等顶尖学术期刊上。


然而,到 2023 年末,人们开始对它们的效用产生怀疑。一篇具有里程碑意义的预印本论文将这种怀疑推向了高潮,该论文断言,这些极其复杂的生命模型在经过既定基准测试时,其表现并不比几十年前编写的更简单的方法更好。对于批次校正、细胞类型识别等任务中,这些新模型的表现与传统方法相差无几。尽管新模型在使用上更加便捷,但这个领域需要的是精度上的突破,而非操作的简便性。因此,这些模型逐渐被悄然弃用。


到 2024 年底,人们对“生命模型”的兴趣已经明显冷却下来。



尽管更广泛的生命科学界已经转向研究传统的生物学机制解释,但仍有一名研究生坚信,曾备受赞誉的“生命模型”依然有未被发掘的价值。他的信念与其说是对早期那些悲观论文的反对,不如说源自对这些模型评估方式的重新思考。


这名学生认为,也许这些模型的真正价值并不在于超越现有的指标,而在于完成一些全新的任务——那些没有标准测试集的任务。早期的悲观论调论文并非一定错误,但它们仅仅依靠现有的基准作为衡量可能效用的唯一标准。这些“生命模型”中或许隐藏着某种潜在的价值,它们超出了标准基准能够捕捉的范围,正等待着被发现。


经过数周的摸索试验,这名研究生发现了一个领域是这些模型的独特强项:基因调控网络的发现。


该学生发现,如果他们人为地提高一个基因的 mRNA 值,并要求模型预测其它基因会如何反应,其结果与真实细胞的行为有一定程度的吻合。它容易出错,但不是随机的,而且比简单的方法要好得多。他们进一步推进了这项研究,花费了价值几百美元的 GPU 时间对模型所知道的 20000 个基因进行了强力“计算突变实验”(computational mutagenesis),每次提升其中一个基因的表达,并观察其他基因的反应。先前已知的基因网络出现了;该模型从静态快照中学习了细胞逻辑。虽然是简单的逻辑,但仍然意义重大…


这为这位研究生描绘了一个诱人的未来:完全模拟细胞对基因扰动(genetic perturbations)的反应。暗示着在未来,某些特定类别的药物,尤其是基因疗法,可以通过“生命模型”完全在虚拟环境中进行筛选。


虽然这篇论文最终发表在一本表面上很有声望的期刊(《自然方法》)上,但更广泛的科学界并未对其给予特别高的评价。这是一项有趣的研究进展,但回想起来,这篇论文的内容似乎很显而易见。它们只是对可能性的粗略探索,缺乏足够的实验数据来支持其宏大的讨论部分。


另一家实验室对机器学习在处理嘈杂的高通量生物数据方面的潜力有更深的理解,他们偶然发现了 2025 年的那篇论文,并在一个周一早晨的实验室会议中进行了讨论。这个实验室的学生深信, 最好的科学是通过智力套利(intellectual arbitrage)创造的——从不太知名的论文中寻找可能有价值的内容,并在已经降低风险的基础上进一步推进。


2025 年的基因网络论文完全符合这个标准。它展现出明确的前景,却被更广泛的科学界忽视了。


这个新实验室复现了该模型,开展了一些实验以验证结果。相同的基因网络再次浮现,但它们过于简单,对任何实际应用都没有帮助。更复杂的网络则无法被模型识别。该实验室认为,缺失的部分很简单:mRNA 水平的快照不足以建立起对细胞的准确表征。向模型提供主动基因扰动的结果可能有助于进一步推进它。然而,这样的数据集并不存在。


该实验室制定了一个计划,涉及横跨三大洲的八个研究机构。他们的提议包括创建以拍字节(PB) 级的 Perturb-seq 数据:在数十种细胞系中进行 CRISPR 基因敲除——在数十亿个细胞中进行高通量、组合式的基因扰动,并进行表型、转录组和蛋白质组学读数。模型将使用与之前相同的拼图任务方法,在收集的数据上进行训练。Perturb-seq 作为一种方法已经存在了十年,但它从未被推至如此规模。团队中的许多科学家对这种方法持怀疑态度,但他们的犹豫被与这个先锋实验室合作的机会所取代,该实验室以其逆向思维押注(contrarian bets)而闻名。


一年半后,数据收集完成,产生了第一个扰动图谱(Perturbation Atlas),这与十年前创建的人类细胞图谱(Human Cell Atlas)有异曲同工之妙。不久之后,一个模型开始基于这些数据进行训练。四个月后,一篇论文诞生了。该实验室的 PI 厌恶传统的出版渠道,因此这篇论文被上传到 bioRxiv,长达 91 页,有 45 位作者。


训练好的模型也随之上线于 HuggingFace,供学术界和商业领域免费使用。


下一代“生命模型”(Model of Life)正式发布了。这是最后一个真正开源的生命模型。



在接下来的一年里,科学界对该模型进行了深入的研究。该模型不仅在传统标准上超越了几乎所有解读 mRNA 数据的传统工具,更重要的是,它模拟细胞动态这一更为难以捉摸的特性的能力也得到了极大提升。它甚至揭示了一些复杂的、此前未被发现的基因网络的存在。其中许多网络都经过了测试。虽然大部分被证明是错误的,但有几个被证实是正确的。


鉴于该模型的开源性质,业界也从中获益。尽管创建模型需要的训练数据所投入的人力成本估计达数亿美元,但未来的历史分析表明,该模型为私营企业带来的经济价值大致相当于投入。


基于模型提出的毒理学问题,一些现有的临床前研究被叫停。大量新的、有希望的治疗靶点出现了。I 期临床试验的平均通过率提高了 5%。尽管这不是解决药物开发这一难题的灵丹妙药,但其表现已经相当接近了。


然而,尽管一些计算导向的医疗机构广泛依赖该模型,传统派仍然持保留态度。毕竟,该模型运行复杂且挑剔、不够可靠,且存在大量边缘案例。多家初创公司、业界实验室和新型学术机构纷纷成立,试图将这个领域推得更进一步。 各种新兴数据模态成为热点,每个人都对如何为“生命模型”引入更多数据源以发掘进一步的治疗潜力有自己的理论和猜想。


一些人持 “DNA 就是你所需要的一切” (DNA is all you need)的世界观,他们投入巨资进行更好的长读测序和染色质可及性数据研究。另一些人继续支持 mRNA 的潜力,并着眼于自然界来扩充现有数据集,利用环境中收集到的细菌、病毒和真菌中蕴含的巨大 mRNA 多样性来训练模型。另一派则认为核苷酸不够充分,蛋白质才是最重要的,他们投入数亿美元开发高通量蛋白质组测序平台(high-throughput proteomic sequencing platforms)。其他边缘群体则关注特殊的数据源,如糖组学(glycomics)和混合分子动力学模拟(hybrid molecular dynamics simulations)。


从这场混乱中,涌现出了数十种闭源模型。


虽然善意的学者们开源了一些模型,但它们远远落后于私人机构的表现。大规模生成有用的生物学数据成本高昂,美国国家卫生研究院(NIH)的资助也越来越不足以支撑竞争。在最好的情况下,拥有最佳模型的公司会以非商业许可的形式向公众发布弱化版本。这被包装为一种科学善意(scientific goodwill)的表现,同时也让这些公司可以免费利用学术界对他们模型的进一步研究。


几年前的悲观情绪被狂热的乐观情绪所取代。构建和利用“生命模型”几乎成为所有生命科学领域的主导研究范式。


奇怪的是,人工智能在生物学中的应用并没有改变典型的临床市场动态。专业化仍然是常态。


这并不是因为治疗市场(therapeutic)的蛋糕足够大,可以让每个人都分到一块,而是因为对任何单一公司而言,从多个数据源收集所需的海量数据在财务上是不可行的。


训练有素的量子模拟模型能够很好地阐明酶催化反应如何在细胞拥挤的环境中发生,因此它们最擅长生产酶。根据核苷酸数据训练的模型是理解基因疗法如何改变细胞动力学的理想选择,因此它们推动了基因编辑革命。根据蛋白质形态训练的模型最适合预测蛋白质-蛋白质相互作用,因此它们在抗体开发方面处于领先地位。


诸如此类。


正因为如此,“生命模型”所承诺的革命在某种意义上是反垄断的。它们的策略可以分为三类,这取决于它们所采用模型的底层能力。


那些能力最有限的公司——通常是希望被收购的初创企业——采用了模型即服务(model-as-a-service)的商业模式,向用户按推理次数收费。这是一笔不错的收入。这些模型的性能也不差,远远优于最早的模型,而且也优于少数可用的开源模型选项。尽管这些产品不如顶级模型,但许多药物研发项目并不需要最好的模型,只需要一些能指引有用研究方向的工具即可。对于 2030 年代任何有抱负的生物技术初创公司来说,这些模型是一个容易买到的商品,就像移液器之于生物学家的实验工具一样必不可少。


更优秀的公司选择了传统的治疗开发路径。这些公司利用其模型发现新的药物靶点,以极高的精度设计分子,并以前所未有的准确性预测脱靶效应。他们的研发管线充满了有希望的候选药物,在临床试验中取得了惊人的成功率,远高于几年前的行业标准。与许多人预测的不同,计算在药物开发中作为一股主导力量的崛起并没有压垮“大型制药公司”。默克(Merck)和罗氏(Roche)仍然主导行业竞争,它们的资金雄厚,足以向有前景的初创公司抛出数亿美元,直接将其并购。


最好的公司瞄准的则是特许权使用费(royalties)。作为客户能够访问使用其模型的回报,它们会从获批药物的销售额中抽取一定比例的特许权使用费。这些公司可以同时与众多客户合作,从而分散风险。如果一种药物成功了,他们将获得数十亿美元的利润,而所有这一切都不需要内部营销、制造或物流能力——只需要原始算力和大量获取数据的财务实力。毕竟,即使药物批准率逐年提高,但失败仍时有发生,而这种商业模式完全避免了这种风险。因此,这个领域是由谷歌、亚马逊和 Meta 等全球巨头领导的,它们的技术优势使它们能够进军制药行业。虽然大型制药公司的运营资金以百万美元计,但这些公司能够投入数十亿美元,利用它们的雄厚财力支持超级计算机集群和全球最优秀的计算人才。



>登录 press.asimov.com 输入邮箱成为订阅会员<




几十年来,统计模型一直是药物设计的一部分,但在进入临床试验阶段之前,它们都是与一系列实验测试一并部署的。然而,一些公司为了节省成本,也部分出于营销宣传,选择在内部模型通过审批后直接跳过进一步的测试,直接进入一期临床试验。美国食品药品监督管理局(FDA)被这些模型的有效性所说服,启动了一项试点计划,允许低风险、由人工智能设计的药物无需进一步测试即可进入临床试验。试点项目获得了成功——完全依赖模型设计的药物与通过传统湿实验验证的药物在疗效上几乎相当。


对于一小部分顶尖公司而言,动物实验逐渐变得过时。虽然在罕见病或未充分研究的物种(under-characterized species)药物开发中仍有一些边缘案例需要实验支持,但这些问题正在逐步被解决。当然,这一切的前提是拥有足够强大的模型以生成可靠的治疗方案——而这一点只有少数公司能够做到。


生物技术公司的强者恒强效应愈发明显。如此快速的研发周期令较弱的公司无法竞争而被迫退出市场。 最终,近 95% 的获批药物由六家巨头公司开发,它们分别主导不同类别的治疗领域:一家专注于肿瘤学,另一家聚焦于遗传病等等。每家公司在各自领域的数据积累遥遥领先,以至于竞争彻底消失。



当这六家各占据一个利基市场的公司发现他们的模型变得越来越全知全能时, 模型自身开始推断未知生物模态(unknown biological modalities)的存在 ,从从未明确提供给它们的数据中提取出隐藏的信息。


最初,这些现象还显得微不足道。一个专注于蛋白质的模型居然推测出了核苷酸序列;一个代谢组学模型准确预测了染色质状态。不同专业领域之间的界限开始模糊,最终彻底消失。


曾经激烈竞争的这些公司,最终陷入了一场尴尬的合作舞蹈。一个接一个,它们彼此合并——通过并购、收购,甚至敌意收购,各种方式不一而足,但结果却是相同的。


到 2045 年,一个单一的企业实体主导了行业,这背后是数十年来汇聚的庞大数据集作为驱动力。政府早已对制药行业潜在的垄断问题失去了兴趣,因为此时的制药业更像是一个奢侈服务提供商。在所有传统疾病面前,制药行业已然进入了后稀缺(post-scarcity)时代,其治疗方案甚至对最贫困的人群也变得触手可及。


在接下来的十年里,整类的疾病逐渐消失。代谢类疾病被治愈,大多数自身免疫性疾病被攻克,几乎所有癌症只要早期发现都能被根除。医学的进步已经达到了如此惊人的地步,其成果对于任何 2020 年代早期的生物学家来说,这些结果几乎是魔法般的。


尤为引人注目的是基因疗法的递送方式。从表面上看,它们与 21 世纪 20 年代初并没有太大区别:一种病毒感染一个细胞,并释放其中隐藏的基因疗法。但你看得越仔细,差异就越大。


从系统发生学的角度来看,这些新的“病毒”甚至不能被称为病毒; 它们更像是一个全新的生命领域(an entirely new domain of life) 。它们表面布满了数十种不同的化学标记和全新的、在进化上独立的蛋白质(de novo, evolutionary distinct proteins),表明了一种前所未见的生物学逻辑。这些新病毒在遇到免疫反应后可以改变表面抗原(shuffle surface antigens),迅速采用新的构象以通过狭窄的细胞间隙,并能在数年内自我复制到安全的背景水平。


这种自我复制意味着基因疗法的剂量成本不到一百美元。以前的治疗性病毒的复制能力已经被削弱,因为担心会引起严重的免疫反应。这意味着每个患者需要大量的病毒颗粒,大约 10^13 个,这使得任何疗法的大规模生产都非常昂贵。能够安全地自我复制意味着只需要少量的病毒颗粒(类似于传统病毒)就可以永久治愈几乎任何疾病。


受到这种高效递送机制广泛适用性的启发,剩下的制药公司将注意力转向了提升人类基础能力本身,这相当于过去的重磅药物发现。新的市场营销公司迅速崛起,说服人类渴望超越进化赐予的能力。


第一个目标是延长寿命(life extension)。


生命模型现在已经能够实现部分细胞重编程(partial cellular reprogramming)的最初承诺,这是一种在 21 世纪 10 年代就已经被提出过的长寿疗法(longevity therapeutic)方向。通过一个特定模型对转录因子-DNA 相互作用(transcription factor-DNA interactions)的深入理解,首款长寿药物问世了——不是一种可以抗皱霜或防治白发的外用药物,而是一种可以大幅减缓我们从出生之日起就开始的、更为模糊的生物性衰老过程的药物。


总体而言,这种药物平均可以为人类提供额外的五十年健康寿命。


虽然这种药物的作用机制在很大程度上仍是未知的,但这并不特别令人惊讶:上一代药物中未知机制同样是常态。令人震惊的是它被如此轻易地接受了。在 21 世纪初的科学家看来,缺乏对药物机制的了解被视为一个严重的缺陷,但到了 2040 年,科学家们对此就相当随意了。 医学界的共识是,试图理解生命模型的“黑盒决策”对于研究生来说是一项有趣的任务,但除此之外并无太大意义。


毕竟,这一切都无法被人脑理解。



这些“生命模型”的影响力不仅限于医学领域,还渗透到每一个可能的经济领域。


现在,大多数农作物都经过了基因工程改造,能够耐受洪水、干旱、病虫害和其他病害。虽然这在第一个生命模型出现之前就已经是常态,但其改造的深度已远远超越了上一代技术。现在,地球上种植的几乎所有小麦都含有经过改造的 RuBisCO 蛋白,这使得植物的光合效率(photosynthetic efficiency)提高了一百倍。 一种专门研究酶的模型发现了这种蛋白质,导致了第四次绿色革命(the fourth Green Revolution)。


能源行业也经历了剧烈的变革。由专门研究代谢通路的模型设计的工程化细菌,现在能够以极高的效率生产碳氢化合物,使化石燃料在经济上变得不再具有竞争力。随着石油依赖型经济体争相适应新局势,地缘政治格局也随之发生了重大变化。


最重要的是, “生命模型”在大规模生态工程领域(ecological engineering)找到了立足之地 。发达国家政府开始将这些模型视为解决气候变化日益显著影响的工具。人们推测,“生命模型”不仅能够在单个生物体的层面上运行,还可以在整个生态系统的规模上发挥作用。因此,唯一剩下的制药公司被国有化,所有相关数据被集中收集,而经过训练的模型被全面部署。


首先,这些模型的目标是海洋。科学家们引入了经过生物工程改造的珊瑚礁(engineered coral reefs),它们能够抵抗不断上升的海水温度。他们播种了经过基因改造的浮游植物菌株(genetically modified phytoplankton strains),这些菌株能够在日益酸化和温暖的海水中生存,并大幅提高氧气产量。一项更大胆的计划是在温暖的海水中引入白色非光合作用藻类的菌落。这些藻类在释放后会大量繁殖,在海洋表面形成一层反射层。它们被编程在一定时间后自然死亡,其残骸沉入海底,从而实现碳的封存(sequestering carbon)。


接下来是对天空的改造。高空无人机群向高层大气释放了密集的改良工程细菌云(dense clouds of modified bacteria)。最初,这些微生物充当了可调节、有生命且能自我复制的云凝结核。当它们感知到特定的化学标记物时,就会激活微生物体内的基因回路,改变其表面蛋白质的亲水性。通过增强或削弱与水分子的吸引力,这些微生物可以促进或抑制雨滴的形成,从而有效地控制目标区域的降水。新一代微生物还具有替代平流层气溶胶注入(stratospheric aerosol injection)的双重功能。通过释放特定化学物质,这些微生物的表面特性也可以变得更加反光,从而提高它们所形成云层的反照率(albedo)。


随着冰盖重现、海洋变冷、物种灭绝率下降,这些剧烈的环境改造措施逐渐减少。世界各国开始向空气中释放一种化学物质,这种物质对所有生命形式都是惰性的,唯独对那些经过基因工程改造的生物体起作用。在一个多月的时间里,这种化学物质激活了深藏在这些生物体内的基因自毁开关(genetic kill switches)。为确保自毁开关在数十年内保持可靠且抗突变,人们设置了层层冗余机制。


这个开关按预期发挥了作用。


当然,“生命模型”的预见能力是有限的,而现存生态系统的复杂性被视为长期风险。例如,反光藻类的大量繁殖确实帮助降低了地球温度,但同时也扰乱了海洋食物链。由于无法与经过改造的藻类竞争,一些浮游生物已经灭绝,这在整个海洋生态系统中造成了连锁反应。世界各地的渔业仍在努力应对这些后果。尽管这类意外的下游连锁影响很少见,但这种风险仍被认为是不可接受的。


自然进化的力量使生命在数百万年间得以不间断地繁荣,从长远来看,它被认为更加可靠。这些技术的相关知识被归档保存,成为人类创新的一座丰碑。随着时间推移, 这些知识将被重新运用于一项更具雄心的任务:改造一颗行星(terraforming a planet)。







请到「今天看啥」查看全文