带着这个问题,
1993年,
Baker回到家乡西雅图的华盛顿大学,开始了独立研究的职业生涯。他决定将主要精力用
于
开发一套能够根据序列预测蛋白质结构的软件
。这就有了
后来大名鼎鼎的
Rosetta系列软件。
Rosetta的名字来源于古埃及的罗塞塔石碑,这块石碑上同时刻有古埃及象形文字、世俗体文字和古希腊文三种不同语言的文本,这使得人们得以通过对照不同语言的内容,破译了古埃及象形文字,从而打开了古埃及文明的大门。而蛋白质可以看做是一种自然界的语言,Baker希望通过Rosetta这个软件来解决把蛋白质的序列翻译成结构的难题。
在华盛顿大学,David Baker开始研究开发一套能够根据序列预测蛋白质结构的软件。
图源:https://sites.uw.edu/biochemistry/faculty/david-baker/
当然,Baker并不是唯一这么想的科学家。
随着人类基因组计划的进步,1990年代科学家们突然获得了大量基因的序列,并据此推导出大部分人类蛋白质的序列。但科学家对这些序列所对应的蛋白质结构还所知甚少。依靠传统的方法,蛋白结构解析成本高昂且需要耗费大量时间。如果蛋白质的结构仅由其氨基酸序列决定,那么理论上完全可以通过计算来预测它们的对应关系。
人类基因组学计划成功后,理解每个基因和其对应的蛋白质功能成为整个生物学界的下一个大目标,于是很多生物信息学家和生化学家都加入了这一大浪潮中。一时间,很多实验室都发表了各种不同的算法和软件,通过蛋白质的序列预测结构和功能。
为了评估软件预测蛋白质结构的能力,马里兰大学的John Moult教授在1994年创办了一个比赛——蛋白质结构预测技术的关键评估
(the Critical Assessment of Techniques for Protein Structure Prediction)
,简称CASP。此后这个比赛每两年举行一次,参赛者被邀请参加一个盲测,即只使用蛋白序列来预测结构,这些蛋白已通过传统方法解析过结构但尚未公开发表,以此来评判参赛者的算法的准确率。
早期,Baker的团队使用从高分辨率蛋白质结构中提取的短片段
(3~9个氨基酸残基)
构建蛋白质模型,并使用了蒙特卡罗搜索的策略来进行能量函数的搜索。在第3届CASP比赛上,David Baker实验室开发的Rosetta软件开始展露头角。在其后相当长的时间里,Rosetta的成绩一直都名列前茅。直到在第7界CASP上,华人学者张阳团队开发的I-TASSER模型取得了与Rosetta相近的成绩,并在其后几届比赛中与其并驾齐驱且互有胜负。
Baker深知个人力量的局限性,他的团队从Rosetta软件创建之初就保持了相当开放的社区属性。2005年,Baker团队发布了Rosetta@home项目,这个项目利用每个用户电脑的闲置算力来进行蛋白结构的计算,也就是今天大家所熟知的分布式运算方法。全世界有数万台电脑为这个项目提供了算力。
2008年,Baker团队又在这个项目的基础上发布了Foldit,这是一个电子游戏,用户可以操纵简单的蛋白质构造来进行变动,而游戏会根据每个结构的变动来评判折叠的完善程度,进而给用户打分。最初这个游戏的题目都是结构已经被解析的蛋白质,通过分析人类拼出正确的蛋白质结构的思维模式,从而改进现有蛋白质折叠的算法。2011年,游戏玩家们真的在游戏里破解了艾滋病逆转录酶
(M-PMV)
的结构,而这个结构已经困扰了蛋白晶体学家十几年。可见,“众人划桨开大船”的模式确实能完成单打独斗难以完成的任务。
David Baker喜欢登山等户外运动。图为Baker2013年在华盛顿州一座山的山顶。图源:维基百科
随着Rosetta开发人员的增多,Baker实验室也陆续有成员离开,一个新的问题出现了:如何在保护知识产权的情况下还能让更多的人继续参与Rosetta的开发。Baker实验室通过开源和搭建社区作为解决的方法。他们创建了名为RosettaCommons的社区,让所有人能都参与开发、下载并使用Rosetta,但如果是商用Rosetta的代码,则需要付费。这些费用都被投入Rosetta的继续开发,帮助Rosetta持续迭代预测蛋白结构的能力。
Rosetta的社区相当活跃。每年夏天,众多蛋白质折叠领域的专家都会齐聚华盛顿喀斯喀特山脉的一个度假胜地,讨论如何改进Rosetta软件平台。他们还给这个定期聚会起名叫罗塞塔会
(Rosettacon)
,就像科幻迷们的星战会
(Star Wars Celebration)
一样。Rosetta的很多重大改进都来源于罗塞塔会上科学家们思想的碰撞。
David Baker本人也非常重视合作,他曾经在一次采访中透露:
“我认为合作对科学来说绝对是核心。
我鼓励我的学生直接发邮件给别人。如果他们在研究一个问题,我会说找出世界上最好的三个人然后给他们发邮件。有时你可能得不到回复,但其他时候你会收到回复,这就可以开始建立一个连接,这可能会真正转变你的研究。”
2020年11月,第14届CASP大赛的研讨会气氛有些不同寻常。会前几个小时,主办方公布了一张参赛队伍预测蛋白质结果评分的图片,显示有一个团队以惊人的成绩
超越了
其它所有参赛选手。会议还没开始,这张图片已经
让
网络炸开了锅,整个领域的人都在热烈议论到底是哪个团队
做到的
。
图:左侧最高成绩为AlphaFold2,第二名为Rosetta。图源:参考文献9
会议开始后,主持人在大家迫不及待的目光中展示了比赛结果:DeepMind公司带来的AlphaFold2,正是这次比赛中的明星。在多个蛋白的预测中,AlphaFold2以惊人的准确性碾压了其它所有团队,包括第二名Baker团队带来的Rosetta。主办方宣布,AlphaFold 2成功解决了一个开放了50年的挑战:开发一种能够准确、普遍和有竞争力地通过序列预测蛋白质结构的新方法。
AlphaFold2遥遥领先的蛋白结构预测能力震惊了整个学术界。与此同时,很多该领域的科学家开始担忧,AlphaFold2来源于商业公司,他们能否自由使用AlphaFold2并在此基础上继续发展新的算法。
Baker后来回忆说,“所有人都惊呆了,先是有很多媒体报道,然后基本上就没有消息了。你处在一个很奇怪的境地,你的领域取得了重大进展,但你却不能在此基础上继续发展。”DeepMind公司的科学家在CASP14发表了一个半小时的演讲,阐述了AlphaFold2的工作机制。和Rosetta、I-TASSER等模型不同,AlphaFold模型使用了深度学习的方法,并引入了基于注意力的神经网络,学习了蛋白数据银行
(Protein Data Bank)
所有的蛋白结构数据,这些数据是全球结构生物学家数十年积累的结果。学习后的模型可以根据序列来预测氨基酸之间的距离和夹角并进一步推测蛋白的结构。这是深度学习方法第一次在蛋白质结构预测领域展露头角,也为这个领域指明了新的方向。
虽然当时DeepMind还未公开AlphaFold2的源代码,但Baker和他的博士后Minkyung Baek已经从这次演讲中找到了具体的方向。他们和实验室的其他成员一起全力工作了数月,发布了使用深度学习技术的新软件平台RoseTTAFold。在神经网络构建中,RoseTTAFold借鉴了AlphaFold 2的多轨网络技术,将蛋白质结构信息的不同方面分离成多个独立的轨道,不同轨道之间相互反馈一些信息,这种架构会让神经网络学习到更丰富的特征。
为了验证RoseTTAFold的能力,Baker联系了他的博士后导师大卫·阿加德教授。阿加德教授正好有一个困扰其实验室两年的问题,他想得到一种细菌在受到病毒感染后产生的蛋白质的结构。阿加德把蛋白的序列发给了Baker,实验室的人员用RoseTTAFold运算了6个小时。预测的结果完美解决了阿加德的问题。阿加德说,解决了这个瓶颈后,他们终于可以继续研究这个蛋白的功能了。
是时候把RoseTTAFold公开了。Baker知道,虽然当时它的能力离AlphaFold2还稍有距离,但已经能解决很多生物学家的问题。
2021年6月15日,Baker实验室发布了RoseTTAFold的在线版本,让所有人都能在线使用这个工具,同时还公布了详细介绍RoseTTAFold技术路线论文的预印本。三天后,DeepMind首席执行官Demis Hassabis在推特上表示,他们将公布AlphaFold2的论文和源代码,并透露论文正在审稿中。7月15日,《科学》和《自然》两大期刊在同一天分别发表了RoseTTAFold和AlphaFold2的技术论文,这场学术界和商业公司的竞赛在这天得到了一个完美的结果。
David Baker后来在一次校园活动中表示:我真的从一开始就认为我们应该分享我们所做的一切。那些代码真的传播到了全世界,基本上每个人都在使用它。
正如人类基因组计划中,学术界和以克雷格•文特尔
(Craig Venter)
为代表的商业公司的竞争,最终也以在两大顶刊同时发表论文落幕。两次竞争的过程都激烈而精彩,伴随的产物是科学的快速进步以及新技术的使用平权。
在蛋白质结构预测
之外,
Baker
也在尝试另一个
方向:蛋白质设计。
著名物理学家理查德·费曼
(Richard Feynman)
有一句名言:“我无法创造的东西,我便无法理解。”目前人类在利用的所有蛋白质都是自然界进化了数十亿年的产物,其中的很多蛋白,人类早已解析其结构并理解了工作原理,但根据现有知识创造出全新结构和功能的蛋白质,还从来没有实现过。生物学家通过定向进化等手段,可以在一定程度优化现有的蛋白,但离主动创造相距甚远。
蛋白质仅靠20种氨基酸的排列组合,就形成了生物学上不可思议的多样性和高效性,支撑起了整个生物界。既然算法可以从蛋白的序列预测出结构了,那反过来是不是可以通过功能来设计对应的结构,再用逆向算法把结构推导回序列呢?这种方式被科学家称为蛋白质的“从头设计”
(De novo design)
,也就是在没有模板参照的情况下设计出自然界中不存在的蛋白,并完成特定功能。如果说蛋白质结构预测是为了理解自然,那么蛋白质设计就是创造自然了。
早在2003年,Baker团队里的Brian Kuhlman和Gautam Dantas就设计了一个含有93个氨基酸残基的α/β蛋白,具有全新的拓扑结构,能够自动折叠成球状并非常稳定。这个蛋白被命名为Top7,这是人类第一次获得了非自然界来源的全新蛋白质,代表着人类在从头设计蛋白领域迈出了一大步。David Baker也因此被一些媒体称为“上帝之手”。
Top7虽然惊艳了科学界,但它只是基于特定结构的设计,并没有任何功能。从头设计出有实际功能的全新蛋白质对科学界而言依然是极具挑战性的工作。
2023年发表的一篇研究,试图把AlphaFold蛋白结构预测的神经网络反转来实现从结构到序列的推导,但结果很不理想。蛋白质的复杂性和多样性意味着即使是微小的变化,也可能对功能产生重大影响。此外,蛋白质与生物体内其他分子的相互作用也是一个需要考虑的重要因素。设计出的蛋白质必须能够在复杂的生物环境中稳定存在,并且与目标分子有效互动。
David Baker的团队尝试了各种计算方法,包括计算蛋白质能量的函数、多种骨架和侧链采样方法以及一些全局优化算法,如蒙特卡洛模拟和连续优化方法。随着生成式AI和其它机器学习方法的发展,设计出具备特定生物功能的全新蛋白质正逐渐成为可能。
2024年6月,David Baker 团队发表了一项新工作,他们设计了一种全新的环形蛋白,能够调控成纤维细胞生长因子
(FGF)
信号通路并促进血管分化。这项工作大大拓宽了蛋白质从头设计的应用范围,可能会对领域的发展产生深远的影响。
David Baker不仅持续保持了高水准的学术研究,还积极将技术转化为商业应用。
他
参与创立的公司涉及制药、诊断、农业、化学等多个领域,可以说已经形成了庞大的商业版图
,而且
不乏一些成功的明星公司
。
例如利用病毒样颗粒开发针对传染病的疫苗的
Icosavax公司,2021年7月登陆纳斯达克,2022年12月被阿斯利康收购。而另一家David Baker参与创立的公司PvP Biologics开发了一款KumaMax 的口服酶,可
以治疗对小麦等食品中的谷蛋白过敏
。这家公司在
2020年被武田制药以3.3亿美元收购。
由于设计新型蛋白质的巨大想象空间,David Baker在去年作为联合创始人创立了Xaira Therapeutics公司。公司甫一成立便聚集了多位业内资深人士,成立一年便获得了10亿美元的风险投资。这在早期阶段的投资中是极其夸张的数字。
David Baker的实验室提供了Xaira Therapeutics公司早期的主要技术,Baker的多位学生和博后也全职加入了这家公司。他们的目标是通过生成式AI等新技术来设计新的蛋白分子,特别是抗体分子。此前,David Baker实验室根据扩散模型设计了RFdiffusion模型,并用这个模型生成新的抗体分子。
在巨量资金支持下,Xaira Therapeutics公司计划用大量实验数据来训练和迭代包括RFdiffusion模型在内的各种模型,最终实现“按需设计”蛋白质的宏伟目标。对Baker和Xaira Therapeutics背后的投资方来说,这都是一次非常大胆的尝试,但也可能带来巨大的经济和社会效益。