5 月 8 日,谷歌
DeepMind
发布了其生物学预测工具 AlphaFold 的最新版本 AlphaFold 3。
由于其预测“几乎所有分子类型”的蛋白质复合物结构的能力,并在预测药物相互作用上实现了前所未有的准确性,它在一夜之间,为生物学领域带来了巨大的变革,点燃了科研界的热情与想象。似乎,人工智能正以前所未有的方式重塑我们探索自然法则的边界。
那么,AlphaFold 一步一步走来是如何实现今天的成就?在如今这个 AI 极大地影响我们开启新科学的方式的轨迹中,我们处于什么位置?人工智能能否帮助我们发现全新的科学?
关于这些疑问,
DeepMind
的科学副总裁
Pushmeet Kohli
与斯坦福大学教授
Vijay Pande
在 a16z 近期的一次访谈中,展开了深入讨论,对这些问题作出了回答。
(来源:a16z)
-
1.
AlphaFold
是如何进化的?
-
-
在
Pushmeet Kohli
看来,如今,AI 已经不再是单纯的辅助工具,而是理解和推理复杂问题的必要条件。
它标志着一个新时代的到来——一个人类个体已难以独立消化我们所积累的海量数据的时代。
正是由于看到了深度学习等在科学研究领域方面的潜力,两位科学家分别于几年前就投身这一领域。
Vijay Pande
认为,在生物学研究领域,我们正见证着一场深刻的工业化转型。
尽管现代生物实验室在表面上看起来与几十年前没有太大差别,也有穿着白大褂的科研人员和实验台旁的各种操作等,但实际上,人工智能的应用已经逐渐推动其研究由手工化到工程化和工业化的转变,将传统手工流程转变为高效、标准化的生产模式。
不过,这种变化并非是一朝一夕之功,在 2015 年的时候,我们或许能看到一些蛛丝马迹,而这种变革可能需要二三十年,目前,我们还只是处于前十年的阶段。
这绝非一蹴而就的过程,但当我们回顾过去时,就能发现整个世界已经被彻底改变了。
AlphaFold 的强大能力就并非一夜炼成,尽管许多人是在 2020 年留意到其成就,但它的起点却在 2017 年就开始了。
一开始,AlphaFold 项目专注于对蛋白质结构的预测,即根据氨基酸序列推断定构成蛋白质的三维结构。
这一步
对理解蛋白质功能、促进药物研发及深入探索细胞生物学等领域具有重大意义。而且,它也是一个典型的机器学习问题,需要在大数据支持下处理复杂的推理任务。
在当时,结构生物学界已经开始了一项意义重大的项目,即 Protein Data Bank(PDB),它的建立为 AlphaFold 的研究提供了高质量的数据集。
PDB 汇集了全球科学家多年努力获取的蛋白质结构信息,截至项目开始时,已积累约 15万份结构记录,为机器学习模型训练提供了强大支撑。
为了解决机器学习自我欺骗的问题,学界还每年举办蛋白质结构预测关键评估(Critical Assessment of
protein Structure Prediction,CASP)竞赛,通过盲测机制评估模型性能,以避免自我欺骗问题,确保研究的可靠性。
AlphaFold 在 2018 年末的 CASP 竞赛中就已经崭露头角,拿下了一等奖,超出了当时团队的预期。由此也得以强化了团队的信心,并进一步加快了他们的跨学科合作策略,尤其是结构生物学家和生物物理学家的加入,如
John Jumper
等人,为项目的后续发展做出了相当大的贡献。
图丨
DeepMind
高级研究科学家
John Jumper
(来源:Canada Gairdner International Awards)
但即便此时模型已表现出世界领先水平,其实用价值实际上仍然有待提升,AlphaFold 1 的能力仅限于预测氨基酸间距离而非直接结构,且其错误反馈机制也比较受限。
图丨AlphaFold 1 的工作流程(来源:
DeepMind
)
团队认为,要取得突破,必须向端到端模型跃进化,即直接从氨基酸序列预测结构,这虽起点更低,但构建第二个端到端模型是必要的进化。
于是,团队决定从零开始,抛弃既有框架,转而追求实现蛋白质结构预测的根本性突破。
一开始,AlphaFold 2 的性能远不如前代,整个项目甚至数月停滞不前,团队甚至为此设立了一个排行榜,对每个成员的每一个想法进行了实验。
最终,经过不断的迭代和试错,团队在新冠疫情初期实现了重大突破,成功在量化蛋白质结构、预测、准确性的关键指标 GDT(Global Distance Test,全局距离检验)上实现突破。
在 CASP14 中,AlphaFold 2 在所有目标的总体得分达到了 92.4 GDT,这意味着大约有 1.6 埃的平均误差(RMSD),与原子的宽度相当,在 Free-modeling(无模板)也达到了 87.0 GDT。
图丨历届 CASP 的 Free-modeling 得分中值与 AlphaFold 的得分(来源:
Deepmind
)
然后,新冠大流行就来了,这让整个团队意识到了他们项目的重要性。
AlphaFold 团队很快就生成了六种可能与新冠病毒有关的蛋白质结构预测结果,并对外公布,为科学家们应对疫情提供了帮助,设计相关疗法。
2020 年 9 月,在第二次 CASP 竞赛结束后,团队收到组织方的意外联系,他们对 AlphaFold 的突出表现表示惊讶,甚至有人质疑其成绩的真实性。
后来,团队发布了 AlphaFold 2,它表现出了出色的准确性与效率,于是团队决定利用它的力量,预测并公开发布近乎所有已知的约 2.5 亿个蛋白质结构,与欧洲分子生物学实验室合作,将这些数据整合进公共数据库中,使之成为广泛可用的重要资源。
而
Vijay Pande
则从一位研究者与投资者的角度,对 AlphaFold 的意义进行了探讨。
Vijay Pande
指出,结构生物学是生物学和药物设计的基石。
最广为人知的例子就是,1953 年由
James Watson
和
Francis Crick
所提出的 DNA 结构,通过观察这一结构,我们能够推测出 DNA 的复制机制,也就是遗传学在某种程度上是如何工作的,以及它的基本原理。
图丨Watson 与 Crick 和他们提出的 DNA 模型(来源:Science History Institute)
结构生物学的这一核心地位正因技术进步而迎来复兴,以往需数年时间的实验结构解析如今可借助如 Cryo-EM(冷冻电子显微镜)等技术在数天内完成,从而加速了科学发现的进程。
而 AlphaFold 的突破性就在于它将结构生物学转变为一种几乎即时的“数据库查询”,尽管实质上是基于预测,但随着预测精度的提升,其效用与直接查询数据库无异。
这一转变极大降低了研究门槛,因为在以前,仅仅解析单个结构就可能就需要耗费整个学者的博士生涯。
AlphaFold 则使科学家无需开展耗时费力的实验就可以快速获取结构信息,这种影响就类似于人类基因组数据库对遗传学研究的变革性影响。
他进一步阐述,当前,学术界与产业界的角色分工正发生变化。
昔日由学术界主导的某些高技术领域,如计算机芯片设计,已逐渐转移到企业界,因为后者在资源、技术和市场适应性上拥有更多优势。
他认为,AlphaFold 的成功案例展现出
DeepMind
等公司在承担此类大规模计算密集型项目上的优势。
这种转变标志着科学创新进入了一个新阶段,即学术知识快速转化为产业应用,推动科学研究的工业化进程。
那么,AlphaFold 等其他 AI 技术,是仅仅只帮助科学家在现有领域提升效率,还是真正推动科学边界的扩展呢?
Vijay Pande
以药物设计为例,表示 AI 在生物学的应用正逐步揭开生物通路的本质。AI 使得科学家能够在不直接进行人体实验的前提下增进对人类生物学的理解,这是对以往受限于伦理和技术障碍的一大突破。
AI 模型,尤其是针对人类的预测模型,相较于传统的小鼠模型,在预测人类生物学方面展现出更强的准确性和独特价值,为绕过动物实验直接洞察人类生理机制提供了可能。
他进一步阐述,AlphaFold 等项目属于生物学 AI 领域,但它们也正引领着从物理化学角度快速推进蛋白质药物化、设计新型抗体等方向的研究。
而 AI 技术在临床试验领域的应用,例如优化试验设计、降低成本、提高成功率,也能带来显著的经济效益。
尽管目前只是处于起步阶段,但 AI 技术在推动科学前沿、改善临床研究及实现精准医疗方面的潜力巨大,未来可期。
-
2.
AI
是否正在引领我们进入科学前沿?
-
-
除了生物学领域之外,
Pushmeet Kohli
的团队还发表了众多其他论文,探索了 AI 与数学、物理等多个领域的融合,这些都指向一个核心问题:这些跨学科的模型是否正引领我们进入科学新前沿?
以纯数学中的拓扑学研究为例,AI 能够做到生成大量数据,并通过神经网络发现两种不同结定义间的联系,从而发现揭示之前未被数学家发现的规律。
所以,
AI 不仅在扩展我们的知识边界,还能在传统认为需要人类直觉的领域内,揭示出新的发现。
Vijay Pande
认为,生物学界的观念正在转变,从一开始认为生物学过于复杂难以理解,转而利用 AI 技术整合海量数据,开始“翻译”生物学的自然语言。AI 为人类提供助力,就好像人类能用机械能举起远超人类能力范围之内的东西。
随着 AI 在某些领域超越人类能力,重要的是思考人类如何与之协作,共同推动科学边界。
那么,我们到底应该怎么做?虽然 AlphaFold 的开源给科研工作者们提供了工具,但我们如何利用像它一样的 AI 工具进行突破创新?
它不仅促进了基础生物学的重大发现,例如核孔复合体的研究,还助力开发了分子注射器、新型疫苗、抗抗生素耐药性抗生素,以及参与塑料降解酶的开发等,覆盖从基础科学到药物研发、合成生物学等多个领域。
AlphaFold 的应用已经表现出了出人意料的潜力。
在过去,我们往往依赖实验验证作为知识来源,而今预测模型的重要性日益凸显。
尽管伴随着对预测可靠性的警惕,但其对加速科学发现的价值不容小觑。
他强调,技术进步背后,更重要的是文化和思维模式的变革,这是推动科学界持续前行的关键动力。
当前的种种实践迹象,正是思维转型的积极信号,预示着科研范式更加开放且富有前瞻性的未来。
另一方面,
现在这些新兴工具的帮助下,科研的经济模式也逐渐发生了改变。
例如,借助外包实验和云服务等计算资源,小型团队也能够高效运作,减少对资金依赖,从而快速推进项目,而这些进步也将进一步促进疗法的更快、更低成本和更高效开发。AlphaFold 的开源就无疑为发展中国家的科学家提供了便利。
不过,要实现更具体的科学目标,如配体设计、解决共晶问题等,还需要进一步的科研投入和模型优化。
-
-
-
过去几年 AI 领域之所以能迅速进步,很大程度上就得益于研究结果伴随代码或详细报告的即时共享,这使得研究者能够迅速验证、复现并在此基础上进一步创新,如同层层累加的摩天大楼,达到了惊人的发展速度。
当然,也并非所有部分都适合开源,如药物化合物,因为高昂的临床试验费用使得开源在经济上并不可行。
而对于公众所担忧的 AI 开源可能带来的潜在风险,如设计有害分子等。他解释说,设计治疗疾病的药物极其复杂,与设计具有潜在危害的化学物质相比,难度不成比例。
即使是最安全的设计也可能在临床试验中显示出毒性,而有害物质的制造相对容易获取。因此,AI 在药物设计中的应用并不会增加额外的风险,因为现存的负面可能性早已存在。
AI
的贡献在于加速有益药物的发现,而不能消除固有的风险。
由于 AlphaFold 触及生物学、化学和药物发现等领域的根基,保持闭源会限制其潜力的全面发挥。
例如,AlphaFold 在开源后意外展现出预测蛋白质内在无序区域的能力,而这在此前并未经专门训练,因此,鉴于模型潜力的不可预测性,开源有助于更充分发挥其优势。