专栏名称: 硅谷洞察

硅谷第一科技媒体，专注报道全球创业公司、科技创新、行业趋势，链接中美创业者与投资人。

人工智能大突破！谷歌旗下AI攻破困扰全球生物学家50年的「蛋白质折叠」难题

硅谷洞察 · 公众号 · · 2020-12-02 12:26

正文

热点追踪 / 深度探讨 / 实地探访 / 商务合作

本文来源：雷锋网（leiphone-sz）；作者：贝爽

美国时间11月30日，谷歌母公司Alphabet旗下人工智能公司DeepMind公开宣布， 生物学界50年来的重大难题——蛋白质折叠预测，已被其成功攻克。

Nature：它将改变一切！作者 | 贝爽

而攻克这一难题的正是其2018年一经推出便震惊科学界的AI系统——AlphaFold。

DeepMind在官方博客中称：AlphaFold的最新版本，在通过氨基酸序列精确预测蛋白质折叠结构方面，已经获得权威蛋白质结构预测评估机构（Critical Assessment of protein Structure Prediction，CASP）的认可。

此消息一出，立刻登上了Nature杂志封面，标题直接评论为：“它将改变一切！”

同一时间，谷歌CEO兼首席执行官桑达尔·皮查伊（Sundar Pichai）、斯坦福教授李飞飞、马斯克等众多科技大佬也在第一时间转推祝贺！

那么这场惊动科技圈、生物学界和科学界的重大突破，到底是一项怎样的研究？

AlphaFold：攻克50年生物学难题

首先要了解为什么要预测蛋白质折叠结构？

众多周知， 蛋白质对于生命至关重要。几乎所有疾病，包括癌症、痴呆症都与蛋白质的功能有关。 而蛋白质的功能由它的3D结构决定。

1972年诺贝尔化学奖得主克里斯蒂安·安芬森（Christian Anfinsen）曾提出，基于蛋白质的1D氨基酸序列可计算并预测蛋白质的3D结构。

但一个现实挑战是，蛋白质的3D结构在形成之前会有数以亿计的折叠方式。

美国分子生物学家Cyrus Levinthal指出，如果用蛮力来计算蛋白质所有可能的构型所需要的时间可能比宇宙的时间都要长，一个典型的蛋白质可能有10∧300种可能的构型。

因此，从1972年至今，如何准确预测蛋白质的折叠方式一直是生物学界的一项重大挑战。

然而， 困扰生物学界50年的重大挑战昨日被DeepMind的成功攻克。该公司的最新AlphaFold系统，在第14次CASP评估中的总体中位数得分达到了92.4GDT。

这意味着AlphaFold预测的平均误差（RMSD）仅为1.6埃（1埃等于0.1nm），相当于一个原子的宽度。

更重要的是， 即使对于最具挑战性的蛋白质——自由建模类蛋白质，AlphaFold的中值得分也达到87.0GDT

CASP中自由建模类预测精度值不断提高（GDT）

自由建模类蛋白质靶标的两个示例

对此，CASP主席John Moult教授在新闻发布会上说：

DeepMind的AlphaFold系统在蛋白质结构预测中达到了无与伦比的准确性。50年来，计算机科学领域的巨大挑战已得到很大程度的解决。

需要说明的是， CASP是评估蛋白质结构预测技术全球范围内最权威的机构。它由John Moult和Krzysztof Fidelis两位教授创立于1994年，每两年进行一次盲审。其中，GDT(Global Distance Test ) 是CASP用来测量预测准确性的主要指标，其范围是从0-100。

简单地说，GDT可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比，90分左右的GDT可以被认为是与实验方法得到的结果相竞争的。

对此，CALICO创始人兼首席执行官亚瑟·D·莱文森高度评价称：

AlphaFold是上一代产品中的佼佼者，它以惊人的速度和精度预测蛋白质结构。 这一飞跃证明了计算方法将转变生物学研究，并为加速药物发现过程具有广阔的前景。

AlphaFold背后的AI机制

折叠的蛋白质可以看作是一个“空间图形”，其中残基是节点和边紧密连接在一起。

该图代表了AlphaFold系统的神经网络模型体系结构。该模型对蛋白质序列和氨基酸残基进行操作——在两种表示之间传递迭代信息以生成结构。

这一过程对于理解蛋白质内部的物理相互作用以及它们的进化史很重要。

对于AlphaFold的最新版本，研究人员创建了一个基于注意力机制的神经网络系统，经过端到端的训练来试图解释这个图的结构，同时对它所构建的隐式图进行推理。 它通过使用多重序列对齐 (MSA) 和氨基酸残基对的表示来精化这个图形结构。

通过迭代这个过程， 系统可以对蛋白质的基本物理结构做出准确的预测，并能够在几天的时间内确定高度精确的结构。 此外，AlphaFold还可以使用内部置信度来预测每个预测的蛋白质结构的哪些部分是可靠的。

AlphaFold系统所使用的数据，来自包括约170,000个蛋白质结构，以及未知结构的蛋白质序列的大型数据库。 在训练时，它使用了大约128个TPU v3内核 (大致相当于100-200个GPU) ，并仅运行了数周。 这在当今机器学习中使用的大多数最先进的大型模型的上下文中是相对较小的计算量。

第二代AlphaFold

DeepMind联合创始人兼首席，执行官Demis Hassabis表示： “ DeepMind的最终愿景一直是构建通用AI，以此加快科学发现的步伐，帮助我们更好地了解周围的世界”。

DeepMind联合创始人兼首席，执行官Demis Hassabis

此次，AlphaFold系统攻克50年来的重大难题，意味着DeepMind又朝这一愿景迈出了坚实的一步。

2018年，AlphaFold首次推出便一鸣惊人。 在当时参加的“蛋白质结构预测奥运会”CASP比赛中，AlphaFold在所有参赛者中达到了最高的精确度，而且是第二名的8倍之多。

经过两年的努力，DeepMind基于新的深度学习结构体系更新了AlphaFold，再次刷新了自己的记录——从60GDT一跃上升为92.4GDT。

而与其他同类AI相比，AlphaFold的准确率也同样遥遥领先。

DeepMind开发团队表示，AlphaFold之能够达到前所未有的精确度，其研究方法是受到了来自生物学、物理学和机器学习领域的启发，另外过去半个多世纪有关蛋白质折叠的研究成果野发挥了重要作用。

人工智能大突破！谷歌旗下AI攻破困扰全球生物学家50年的「蛋白质折叠」难题

正文

请到「今天看啥」查看全文