专栏名称: NaturePortfolio
Nature Research官方账号,介绍中国及世界科技出版业最新动态,如何在Nature及其子刊上发表论文,针对中国研究人员的最新产品及服务。
目录
相关文章推荐
募格学术  ·  英文论文润色,让稿件语言准确地道优美 ·  昨天  
科研圈  ·  Science一周论文导读|2025年3月7日 ·  2 天前  
社会学理论大缸  ·  读博有点抑郁,到底是我个人问题还是普遍现象? ... ·  3 天前  
51好读  ›  专栏  ›  NaturePortfolio

碾压AlphaFold?Meta预测蛋白质元宇宙的“暗物质”

NaturePortfolio  · 公众号  · 科研  · 2022-11-08 12:40

正文


原文作者:Ewen Callaway

来自土壤、海水和人体的微生物分子是这个地球上非常神秘的蛋白质。

当伦敦的DeepMind公司在今年公布约2.2亿个蛋白质预测结构时,几乎覆盖了DNA数据库中已知生物的全部蛋白质。现在,另一个科技巨头揭示了这个蛋白质宇宙的“暗物质”。


Meta (前身为Facebook,总部位于美国加州的门洛帕克) 的研究团队利用人工智能 (AI) 预测了约6亿个蛋白质的结构,这些蛋白质来自此前从未被表征过的细菌、病毒和其他微生物。


Meta AI蛋白质团队负责人Alexander Rives说:“ 这些结构是我们最不了解的结构。它们是非常神秘的蛋白质。 我相信它们有潜力为生物学研究带来巨大启示。”

ESM宏基因组图(ESM Metagenomic Atlas)数据库包含对6.17亿个蛋白质的结构预测。来源:ESM Metagenomic Atlas (CC BY 4.0)

研究结果于11月1日以预印本 [1] 的形式发布。 该团队利用一个“大型语言模型”进行预测, 这类AI是那些只需几个字母或单词就能预测文本的工具的技术基础。


通常来说,语言模型需要使用大量文本进行训练。为了把它们应用到蛋白质上,Rives和同事给它们输入已知蛋白质的序列,这些序列可以用一条由20种不同氨基酸组成的链表示,每个氨基酸都用一个字母表示。随后, 这个网络会学习如何在部分氨基酸不可知的情况下“自动补全”蛋白质。

蛋白质“自动补全”

Rives说,这种训练能让该网络获得对蛋白质序列的直觉理解,而蛋白质序列能透露蛋白质结构的信息。第二步——受到DeepMind开创性蛋白质结构预测AI“AlphaFold”的启发——是将这类理解与已知蛋白质结构和序列之间的关系相结合,根据蛋白质序列生成结构预测。


Meta的这个网络名为ESMFold。 Rives的团队在今年夏天早些时候表示 [2] 该网络的准确度不如AlphaFold,但预测速度快了60倍。 “这意味着我们可以把结构预测拓展到更大的数据库。”


作为测试, 他们决定将模型用在一个批量测序的“宏基因组”DNA数据库上 ,这些DNA来自环境中的土壤、海水、人体肠道、皮肤和其他微生物生境。这些DNA信息——可编码潜在蛋白质——的绝大多数都来自从来没有培养过、科学界未知的生物体。


Meta团队总共预测了超过6.17亿个蛋白质的结构,而且只用了2周时间 (AlphaFold生成单个预测一般需要几分钟) 。这些预测结构和模型的底层代码都可免费获取。


在这6.17亿个预测结构中, 模型认为有1/3以上的结构属于高质量结构 ,让研究人员可以信任整个蛋白质结构的准确性,而且在某些情况下还能分辨原子水平的细节。在这些预测中, 有几百万个结构是全新的 ,与针对已知生物的实验解析蛋白质结构数据库和AlphaFold数据库中的结构都不一样。


AlphaFold数据库中的一大部分结构几乎是完全相同的,而“宏基因组”数据库“应能覆盖一大片之前未曾见过的蛋白质宇宙”,首尔大学计算生物学家Martin Steinegger说,“这是揭开这些暗物质面纱的大好机会。”


哈佛大学演化生物学家Sergey Ovchinnikov对于ESMFold预测的数亿个置信度较低的结构感到好奇。有些预测可能缺少清晰的结构,至少单独看起来如此,其他预测可能是将非编码DNA错误当成了某种编码蛋白质的物质。他说:“ 蛋白质宇宙好像还有一大半是我们完全未知的。

更清晰、更简单、更便宜

慕尼黑工业大学的计算生物学家Burkhard Rost对于Meta模型在速度和准确度上的综合表现非常赞赏。但他怀疑这个模型在预测宏基因组数据库中的蛋白质时,是否具有超越AlphaFold精确度的优势。基于语言模型的预测方法——包括他的团队开发的一种方法 [3]







请到「今天看啥」查看全文