专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
央视财经  ·  普京重要表态! ·  23 小时前  
掌上平度  ·  利好来了!名单公布 ·  2 天前  
掌上平度  ·  利好来了!名单公布 ·  2 天前  
财经网  ·  退钱了!明起预约→ ·  3 天前  
51好读  ›  专栏  ›  学术头条

Science:AI模拟5亿年生物进化,创造了一种「前所未有」的蛋白质

学术头条  · 公众号  ·  · 2025-01-17 08:06

正文


蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过 无数次随机突变 ,并通过生物系统的选择机制进行 筛选 ,最终形成那些具有 特定生物学功能的蛋白质


近年来,随着深度学习和语言模型(LM)的发展,科学家们开始尝试将这些工具应用于理解生物系统,尤其是蛋白质。


今天, Science 杂志发表了一项重要研究成果,展示了如何 利用语言模型来生成和推理蛋白质序列、结构和功能 ,并提出了一个名为 ESM3 的多模态生成式模型。该模型不仅能够生成功能性蛋白质,还能够 模拟超过 5 亿年的进化过程 ,生成与自然界已知蛋白序列不同的全新蛋白质。



ESM3 模型由人工智能初创公司 Evolutionary Scale 研发,旨在 帮助科学家理解、构思和创造蛋白质 。在这项工作中,研究人员通过 ESM3 设计了一个新的绿色荧光蛋白(GFP),其基因序列与已知荧光蛋白的差异巨大,如果通过天然荧光蛋白的生物进化,则需要超过 5 亿年左右的时间。


这意味着,语言模型不仅可以解读自然进化中积累的生物数据,还能通过分析进而生成新型生物分子,开辟蛋白质设计和药物开发的新路径。


AI 解码生物语言


生物体本质上是可编程的。


这是因为自然界的每个生物体都共享相同的遗传密码,构成生命物质基础的蛋白质就是仅由 20 种氨基酸组成。也因此,有人将其比作生命的“字母表”。


生物体中复杂的蛋白质信息蕴含着深层的生物学规律和演化历史。近年来,科学家们通过对基因组序列和蛋白质结构的测序,积累了大量的蛋白质数据,包括数十亿条序列和数亿个结构信息。


随着 AI 技术的发展,科学家们开始尝试利用深度学习模型,如大语言模型(LLM), 将这些遗传信息“解码” ,以揭示蛋白质序列中隐藏的深层模式和逻辑,并通过这些模式推断、设计全新的蛋白质结构和功能。


当前,已有多个语言模型(如 ProtBERT、ProtGPT)证明了蛋白质序列中的模式能够被语言模型“解码”,从而可以帮助理解其功能。这一领域的研究还表明,随着模型规模的扩大,语言模型的能力和准确性也随之提升。


为此,研究人员使用了超过 31.5 亿条蛋白质序列 2.36 亿个蛋白质结构 ,以及 5.39 亿个带有功能注释的蛋白质数据 来训练 ESM3 模型。该模型总共有三种不同的规模,分别为 14 亿、70 亿和 980 亿参数。


实验表明,随着模型参数规模的增加,ESM3 在生成能力和表示学习上的性能有显著提升,特别是在生成蛋白质结构时,980 亿参数的模型表现出超越现有模型的强大能力。


作为该领域的前沿成果,ESM3 不仅仅是一个传统的序列生成模型,而是一个多模态生成模型,能够 同时处理蛋白质的序列、三维结构和功能


ESM3 还展示了其在多种生成任务上的卓越性能。ESM3 使用了一种名为“ 生成掩码语言模型 ”的方法,在输入中对蛋白质的序列、结构和功能进行随机掩码,然后通过模型推理生成缺失的部分。


(来源:Evolutionary Scale)

研究人员通过随机掩码并生成序列和结构,对比生成结果与真实蛋白质的匹配情况,发现模型能够生成高质量的蛋白质序列和结构, 其与真实结构的平均差异仅为 0.5Å


此外,研究表明, ESM3 能够通过不同的提示生成具有目标功能的蛋白质,这为蛋白质设计带来了高度灵活性 。与传统的三维空间中的复杂建模方法不同,ESM3 将三维结构离散化为 token,这使得它能够与序列和功能信息一同被输入模型进行处理。这种方法避免了复杂的三维空间扩散架构,使得生成过程更加高效、可控。



生成需 5 亿年进化的荧光蛋白


为了展示了 ESM3 模型在生成全新蛋白质方面的巨大潜力,研究人员尝试选择绿色荧光蛋白进行挑战。


绿色荧光蛋白在生物学研究中是非常重要的工具,用于标记和跟踪细胞内的分子与结构 。然而,现有的荧光蛋白大多数来自自然界,且其突变通常限制在已有序列周围,很难大幅度改变其序列。在少数情况下,利⽤⾼通量实验和机器学习,科学家仅能够引⼊至多 40-50 个突变(即 80% 的序列同源性),同时保留蛋白的荧光功能。


(来源:Evolutionary Scale)

为了突破这一瓶颈,研究人员通过对 ESM3 模型进行特定的功能提示, 尝试生成生成一个全新的绿色荧光蛋白 ,要求该蛋白的序列与已知的绿色荧光蛋白序列相似性较低,但仍要保持其荧光特性。


首先,研究人员定义了一个 229 个氨基酸长的蛋白质序列,其中包含了与绿色荧光蛋白荧光活性相关的关键氨基酸,研究人员还提供了绿色荧光蛋白的三维信息,尤其是与形成荧光色素的活性位点相关的氨基酸残基。


ESM3 模型在接收到这些提示后,会生成一个蛋白质的三维结构,尤其是确保活性位点的氨基酸位置协调良好。然后,基于生成的结构,模型进一步推理生成合适的氨基酸序列,并尝试保持活性位点的正确结构。


在这个过程中, ESM3 不仅仅是根据已有的绿色荧光蛋白结构生成新的序列,还能够在“已知”结构的基础上进行创新 ,生成具有低序列相似性的新型蛋白质。


经过一系列的生成和优化步骤,研究人员获得了多个新的绿色荧光蛋白,其中一个特别的设计被命名为 esmGFP。这个 全新的蛋白质与现有的荧光蛋白(如 tagRFP)之间的序列相似性为 58% ,与最接近的天然蛋白(eqFP578)之间的序列差异为 107 个氨基酸,序列相似性为 53%。


研究人员还进一步验证了生成的绿色荧光蛋白是否具有实际的荧光功能。结果表明, 尽管 esmGFP 发光特性有所延迟,成熟时间较长,但最终的荧光亮度与已知的绿色荧光蛋白相似,且具有稳定的荧光特性


研究人员还提供了时间校准系统发育分析,指出如果通过现有蛋白的自然界进化过程得到 esmGFP,则需要超过 5 亿年的等效时间。



ESM3 的未来潜力与应用







请到「今天看啥」查看全文


推荐文章
央视财经  ·  普京重要表态!
23 小时前
掌上平度  ·  利好来了!名单公布
2 天前
掌上平度  ·  利好来了!名单公布
2 天前
财经网  ·  退钱了!明起预约→
3 天前
鼠绘情报站  ·  不作死就不会死系列,总会有惊喜~
7 年前
程序员技术  ·  你知道女人身体哪个部位最紧么?
7 年前