从人类基因组计划开始,人类相信只要获得了人类基因的「乐谱」,就能按图索骥,解释生命生理过程中的诸多机制。但从基因转录、翻译再到氨基酸序列之后,科研界就似乎进入了一个极为狭窄的胡同,因为他们遇到了蛋白折叠。
1972年,诺贝尔化学奖得主克里斯蒂安·安芬森(Christian Anfinsen)提出一个著名的观点,即理论上,
蛋白质的氨基酸序列应该完全决定其结构
。正是由于这一假设,引发了50年的探索,即能够仅基于1D氨基酸序列通过计算预测蛋白质的3D结构。
然而,一个主要的挑战是,一种蛋白质在进入最终的3D结构之前,理论上可以折叠的方式数量是天文数字。1969年,Cyrus Levinthal指出,通过蛮力计算来列举一种典型蛋白质的所有可能构型需要比已知宇宙的年龄更长的时间——Levin thal估计了一种典型蛋白质的10^300种可能构象。要知道,AlphaGo面对的围棋问题复杂度也就是10^171,蛋白质折叠问题比围棋复杂度高出129个数量级!
在自然界中,蛋白质的氨基酸链,可以自发折叠成无数令人难以想象的形状,有些甚至在几毫秒之内完成。大多数生物过程都围绕蛋白质,而蛋白质的功能是极其依赖其3D结构的,即只有我们知道蛋白质是如何折叠时,我们才能说真正知晓蛋白质的功能了。
多年来,蛋白质结构的解析一直是科学界研究的焦点。我国著名生物学家施一公就因在结构生物领域的卓越贡献,收获鲜花和掌声无数。依赖核磁共振、X射线晶体学以及几年来大热的冷冻电子显微镜的新方法,往往需要广泛的反复试验。每个结构可能需要一个高端研究团队花费数年的艰巨努力,且以数百万美元的专用设备作为支持。
AlphaFold 2系统如此强大,它是如何训练出来的呢?
首先,研究人员把折叠的蛋白质认为是一个「空间图」,其中残基是节点,边缘连接着非常接近的残基。之后,建立了一个基于注意力机制的神经网络系统,端到端进行了训练。建立的这个系统会试图解释这个图的结构,同时对它正在构建的隐式图进行推理。
在这个推理过程,还会用到生物学中已知的信息进行完善,如:进化中的同源序列,多序列比对(MSA)和氨基酸残基对等。通过重复这一过程,该系统对蛋白质的潜在物理结构进行了强有力的预测,并能够在几天内确定高度准确的结构。
此外,AlphaFold还使用了内部置信度度量指标来判断蛋白质结构中哪些部分是可靠的。
之后,研究人员在公开的数据上训练了这个系统,这些数据库包括大约170000个蛋白质结构,其中便有许多未知结构的蛋白质序列。这个训练过程花费了几周的时间,使用了大约128个TPUv3内核(大约相当于100-200个GPU)。
这张图对于理解蛋白质内部的物理相互作用以及它们的进化历史是很重要的。
这些令人兴奋的结果为生物学家打开了使用深度学习计算结构预测作为科学研究的核心工具的潜力,DeepMind 的方法可能特别有助于预测重要类别的蛋白质结构,如膜蛋白等。
蛋白质的三维结构就是它的灵魂。不只是在生命科学领域,在环境可持续发展领域,
蛋白质结构的重大科研突破都是意义无穷的,如开发疾病的治疗方法、寻找能分解工业废物的酶。
尤其在医疗领域,它可以刷新我们对特定疾病的理解,通过帮助鉴定出故障的蛋白质并推断其相互作用方式,可以使药物开发工作更加精确,从而补充现有的实验方法,从而更快地找到有希望的治疗方法。
包括癌症、糖尿病、痴呆等在内的大部分疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,将对疾病的预防、治疗等带来重要影响。
作为Deepmind的兄弟公司-谷歌,其CEO桑达尔·皮查伊(Sundar Pichai)在Twitter上为此次突破点赞。科研界名人李飞飞、马斯克等大佬也纷纷点赞。哥大生物学助理教授Mohammed AlQuraishi称,这使蛋白质结构AI进入“ImageNet时代”。马里兰大学的结构生物学家Shady Grove则表示:这是一个已有50年历史的问题,我从没想过一辈子中能看到这个。
此举无疑让诸多结构生物学领域的从业人员心头一颤。尽管对行业助力颇巨,但是引起了不少人的饭碗担忧。
纷纷自嘲:要失业了。
外行人看热闹,内行人看门道。上海科技大学iHuman研究所执行所长刘志杰教授在接受记者采访时表示:“
预测蛋白质结构的工作已经持续了很长一段时间,现在的预测的准确度肯定是越来越高了,但是仍然没有达到晶体结构的精度。
”
晶体结构是最精确的,而现在人工智能预测蛋白质折叠能够达到电镜以及核磁共振的精度。此外,由于蛋白质有成千上万种结构,解析的难度也不一样。
“如果一些蛋白序列和已知的结构比较相近,那么就比较容易预测。”刘志杰表示。但他仍然认为,随着蛋白质折叠的预测精确度不断提升,未来将在生命科学领域发挥更加重要的作用。“现在的预测已经达到电镜的精度,就已经可以对一些药物进行设计,目前药物设计是人工智能蛋白质折叠预测最大的应用领域,将大幅缩短药物研发和设计的时间。”刘志杰对第一财经记者说道,“未来这种技术也可以应用到蛋白质设计上。”
DeepMind公司的CEO德米斯·哈萨比斯(Demis Hassabis)
表示
:“在实际影响力上,我真的觉得这是(DeepMind)至今最重要的成就。”这个50年难题的解决,意味着生物学家终于从预测蛋白结构的苦劳中被解放出来,能够着手应对更新、更需要创造力的任务。
参考链接:
https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology