专栏名称: 科学网
作为全球最大的中文科学社区,科学网(www.sciencenet.cn)致力于全方位服务华人科学与高等教育界,以网络社区为基础构建起面向全球华人科学家的网络新媒体,促进科技创新和学术交流。
目录
相关文章推荐
科普中国  ·  国道318线(然乌段)然乌隧道顺利贯通 ·  21 小时前  
生命的智慧  ·  Science | 珊瑚礁恢复的进展 ·  2 天前  
老千和他的朋友们  ·  Science | 形状记忆陶瓷和超弹性 ·  5 天前  
51好读  ›  专栏  ›  科学网

手握7项世界专利,25岁博士生一作再发重磅研究

科学网  · 公众号  · 科学  · 2024-12-18 20:07

正文

文|《中国科学报》见习记者 杜珊妮


“Sometimes something wonderful happens to someone(美好的事情有时会发生在某个人身上)”。十多年前,还是初中生的姜凯议偶然从一本小说中读到了这句话,彼时的他没想到,这竟在多年后成为了他人生的真实写照。


如今,25岁的姜凯议已是美国麻省理工学院(MIT)生物工程系博士候选人,手握7项世界专利,不仅在《科学》《自然生物技术》等顶级期刊发表了多篇论文,参与孵化的基因编辑生物技术公司也已获得数亿美元融资。

 

姜凯议


近日,美好再次“如期而至”,姜凯议以第一作者的身份收获了他的第二篇《科学》论文。这项成果源自他本科时就有的研究想法,经过7年的坚持与沉淀后,终于得以实现。


他所在的研究团队开发出了高效蛋白进化方法EVOLVEpro。这项跨学科研究将人工智能(AI)与生物工程紧密结合,大幅提高了生物实验效率,推动了AI模型在生物领域的应用。


更值一提的是,这项研究发表的同时,另一项他开始于本科阶段的研究也被《科学》接收。

 

《科学》论文


跳过折叠变化


蛋白质是实现生物功能的“最终执行者”。


传统生物学研究倾向于循序渐进地从蛋白质序列入手,逐步探讨其如何折叠成三维结构,继而研究这些结构如何相互作用,并最终完成特定的生物功能。而解析蛋白质的折叠与功能关系,一直是生物学研究的核心难题。


近些年,谷歌DeepMind开发的AlphaFold在解决蛋白质折叠问题上有了质的飞跃。但是,人体每个细胞内有超过4000万个蛋白正在表达,它们往往协同工作,而非单独完成任务。


“这些蛋白质之间如何协同决定生物现象?它们碰到之后折叠会发生什么变化?这些问题是目前的AI算法没法解决的。”姜凯议告诉《中国科学报》。


姜凯议意识到,如果从折叠变化入手,可能要耗费十年甚至更长时间才能找到答案。与其停留在这个“卡点”,不如干脆跳出传统思维框架,跳过折叠变化,一步看到最后。“我就想知道,一个蛋白质的序列可不可以直接预测它最后的功能是什么?”


定向蛋白质进化是目前进化蛋白质最高效的工具之一。它模拟自然界中的进化规律,通过随机突变和筛选改进蛋白质功能,由加州理工学院生物工程与生物化学教授Frances H. Arnold提出。她因这项技术在生物分子工程领域的重要贡献,获得了2018年的诺贝尔化学奖。


这一技术虽然拥有广阔的应用前景,但却并不适用于所有蛋白质,并且面临着实验复杂、多属性优化效率低下和局部最大值陷阱等挑战。


为解决这些痛点,在这项最新发表的研究中,姜凯议开发了AI算法驱动的蛋白质进化框架EVOLVEpro。它结合蛋白质语言模型(PLMs)和回归模型,可通过少量实验数据快速改进蛋白质活性。


EVOLVEpro采用模块化设计,PLMs负责对蛋白质序列进行编码,将其映射到一个连续的潜在空间,以便优化蛋白质活性;顶层回归模型从少量数据中(低样本数场景中)学习潜在空间与活性之间的映射关系。


EVOLVEpro 进化方法示意图


大语言模型(LLMs)以“预测下一个词”为核心,即根据已有的文本信息预测下一个最有可能的词语。因此,AI工程师在开发蛋白质的生物大模型时,会借鉴这一逻辑预测下一个最可能的氨基酸。


然而,在姜凯议看来,这一逻辑在生物进化中并不适用,因为进化不追求个体蛋白质的最优解,而是群体适应性的平衡。“过于‘优秀’的蛋白质可能消耗更多能量,反而不利于整个群体生存。好的预测结果未必真的好,坏的预测结果也未必真的坏。” 


传统路径使用LLM将氨基酸序列投射到高维空间后,试图将其解码回氨基酸序列,以便预测蛋白质的“好坏”。但在这项研究中,研究团队放弃了解码,选择直接在高维空间中进行线性回归,利用高维空间中的信息推测并寻找更高活性的蛋白质。


“这个高维空间很复杂,包含蛋白质的许多信息,例如活性、功能等。一旦尝试解码蛋白,可能会丢失一些重要信息。”姜凯议解释说。


研究团队通过对6种蛋白质进行测试,验证了EVOLVEpro在RNA生产、基因组编辑和抗体结合应用中的表现和有效性,真正实现了诸如抗体进化效率提高40倍等实验成果,证明EVOLVEpro优于当前的方法。


挑战业界领先指标

高效进化RNA聚合酶是这项研究的亮点之一。


起初,姜凯议的目标很简单,用算法进化出比自然界的RNA聚合酶更好的版本即可。然而,他的导师却将实验要求推向了一个更具野心的高度——直接对标美国生物技术企业莫德纳公司花费数年时间精心优化的蛋白酶突变体。


“我的博导认为,要使这篇文章有影响力,就要证明你的算法能设计出比现有市面上最好的RNA聚合酶还要好的突变体。”姜凯议说,“相当于我要用这个算法PK人类最聪明的一群生物工程师花了三四年工夫想出来的解决方案。”


当时,莫德纳公司改造的突变体已经比自然界的好出来40、50倍,显然,要超越它并非易事。


尽管在接受挑战后,姜凯议仅用一个月就开发出了在各个维度上都“吊打”自然界的RNA聚合酶,但距离突破目标还有很长的一段路要走,这其中涉及非常多的挑战。


例如,为掌握工业级别性能表征方法,比如RNA的免疫反应、RNA的原性,他不得不从头开始、逐步攻克这些复杂且超出他原本研究领域的难题。


此外,在进行RNA聚合酶的进化实验时,培养细菌、表达酶、纯化蛋白……每一步都极其耗时且繁琐。“一个博士生努力一周,可能也只能纯化两到三个蛋白,工作量非常大。”姜凯议说。但在这项研究中,他用时两个多月共纯化了60个蛋白。


这样的效率,仅靠传统方法几乎不可能实现。但科研经验的积累和对实验方法的深刻理解,让姜凯议想到了此前在另一篇文章中应用过的无细胞表达的高通量筛选系统,其无需细胞表达即可生成蛋白。


但是,这套系统工具的实验环境存在高浓度的杂质,例如镁离子和盐,会对蛋白的性能产生意想不到的影响,从而带来误导性的实验结果。


为避免偏差,在每一轮进化筛选后,姜凯议都会挑出最佳突变体,用繁琐的传统方法再次进行纯化,然后在正常的镁离子和盐浓度环境中重新表征。“如果没有这些校准工作,那么这个实验可能就彻底跑偏了。”


严谨的科研态度,使实验数据在面对工业级突变体时,拥有了足够的竞争力和可信度。最终,历时5个月,他和团队利用EVOLVEpro成功进化出了一种比莫德纳公司突变体性能更优的RNA聚合酶。


7年积累与沉淀


这是一项贯穿姜凯议整个科研生涯的研究。


在美国读高中时,得益于学校附近诸多的生物研究机构,数理化成绩优异且好奇心强的姜凯议已经开始了对生物领域的探索。


2017年,他进入美国莱斯大学攻读生物工程专业,并遇到了科研生涯的启蒙导师Caleb Bashor。


Bashor从事合成生物学研究,师承于被誉为“美国合成生物学之父”的James J.Collins。当他第一次向姜凯议介绍自己的科研目标——“有一天要像编程硅基的电脑一样编程碳基的生物”时,这个概念如同火花,彻底点燃了姜凯议对生物研究的热情。


自那时起,姜凯议便成了Bashor实验室的常客。除了课业之外,几乎所有的时间都泡在实验室,即使是周末也不例外。


在实验室“打杂”,诸如纯化DNA等基础性和机械性的工作任务,构成了他日常的一部分。尽管内容枯燥乏味,但姜凯议总会耐心做完。“本科做科研,就是要从最基本的事情学起,该学的时候就要低头好好学,不能心气太高。”


姜凯议积极的学习态度和用心投入,引起了Bashor的注意。他很喜欢和这个踏实勤奋的年轻人聊天,也看到了他在生物研究领域的发展潜力。而Bashor的青睐,也让姜凯议在本科毕业前争取到了一张通往MIT的重要“船票”——一封Bashor亲笔撰写的校友推荐信。


在Bashor的指导下,姜凯议进行了非常传统的数学和物理建模训练,运用百年前物理学家对蛋白质的猜想预测蛋白质行为。然而,他发现,这些基于旧理论的模型难以全面解释碳基生物的复杂运行,需要频繁地调整参数,甚至与物理学家合作修改公式才能更贴近现实。


这促使他重新审视自己的研究方向。相比不断完善理论模型,他更渴望利用高效准确的工具预测实验结果,从而推动科研成果的实际应用。正是在这样的背景下,开发EVOLVEpro的想法悄然萌芽。


彼时,AI还未发展“出圈”,ChatGPT、AlphaFold等革命性AI技术也尚未问世。


作为一个拥有生物学背景的本科生,姜凯议与AI原本应该是两条不相交的平行线。但碰巧的是,他身边几乎全是学计算机科学的朋友。“那时,他们作为内行人已经看到AI发展的‘曙光’,而我作为一个外行人,从他们的交谈中感受到他们对这种技术的期待。”他回忆说。


于是,一节计算机科学课程都没上过的姜凯议在与朋友的日常交流中,逐渐掌握了支持向量机(SVM)、卷积神经网络(CNN)、深度学习框架Transformer等领域知识。


在独立编写模型和训练代码的日子里,由于没有ChatGPT,遇到bug或不会修改的代码时,姜凯议常常会跑到楼下的公寓请教朋友,向他们“偷学”如何安装开源包管理器Homebrew,或依靠浏览“代码程序员的知乎”Stack Overflow的帖子,慢慢琢磨他人的答案解惑。


而当再次回想起这些时光,姜凯议坦言,这正是他科研路上最快乐的几年。


2021年8月,本科毕业的姜凯议进入MIT攻读生物工程博士学位,并加入哈佛大学医学院助理教授Jonathan Gootenberg和Omar Abudayyeh的实验室,开启了科研生涯新篇章。

 

姜凯议(第二排右5)与博导的课题组成员


同年,美国互联网公司Meta的AI蛋白质团队ESM也在美国《国家科学院院刊》发表了首个生物的大语言模型ESM1b。紧跟AI研究发展的姜凯议敏锐地嗅到,机会来了。


这篇论文发表后不到三个月,姜凯议就测试了该团队发布的第一代小型大语言模型ESM1。“尽管实验效果并不理想,但已经能初步验证如今研究思路的可行性。”


然而,正是由于模型表现不佳、AI风潮仍未兴起,对AI的潜力了解有限的两位导师起初认为,这项工作可能难以激发学术界的兴趣,所以建议他专注基因编辑领域的课题。但姜凯议并未放弃,而是将其作为一个小课题,偶尔利用空闲时间进行研究。


直到博三那年,情况迎来转机。AI研究领域迎来井喷式发展,AlphaFold、ChatGPT相继问世,导师的态度也因大环境而发生了转变,当初搁置的小课题再次被提上日程。


这一次,姜凯议终于得以全身心投入这个项目,将多年的研究构想付诸实践。


“想法不值钱”,执行力才是答案


姜凯议无疑是幸运的。


做科研至今,他所参与的研究项目几乎从没有经历过“流产”的阴霾。对此,他坦率地表示,“做科研,运气永远排在第一位。能遇到什么样的导师或研究项目,80%的情况下和自身实力没有关系。”


那么,运气之外,是否还有其他关键因素在发挥作用呢?


当然有。在姜凯议看来,执行力就是最好的答案,而且是一个远被低估的指标。


“有句话叫做‘Idea is cheap(想法不值钱)’。其实,想法并不稀缺,很多人都能想到同样的解决方案,但重要的是如何执行这些方案,并在执行过程中不断调整和完善。”


回溯姜凯议的科研经历不难发现,无论是本科导师的青睐、跨学科的自学经历,还是对研究构想落地的坚持,他一直保持着出色的执行力。而他博导的课题组更是一个执行力超强的团队,并且有着独特的“内卷”文化。


“初入课题组时,是组内一位来自瑞士的博士后指导我。他非常聪明,但同时也非常‘卷’。有时,我凌晨一两点离开实验室时,他还在忙。第二天早上9点,当我再次回到实验室时,他甚至还没回去休息。”姜凯议回忆说,“他的生活几乎昼夜颠倒,但没人逼他这么做,完全是因为他对自己的科研太感兴趣了。”


此“卷”非彼“卷”,并不是迫于导师压力,而是一种自发的科研激情和兴趣所驱动的自循环系统。


在这个团队中,每位成员都以极高的自我要求和执行力推动着研究进程。即使遇到不理想的实验结果,他们也会迅速调整心态,重新投入实验。“有时,9点钟发现问题,10点钟就会启动新一轮实验。虽然的确有些不利于健康,但我觉得这个氛围非常难得。”姜凯议说。


坚持和追求高效执行力,带来的不仅是持续产出的科研硕果,还有丰厚的奖励回报。


2023年,两位博导共同成立了基因编辑初创公司Tome Biosciences,并于同年获得2.13亿美元投资。姜凯议虽未入股,但以技术顾问的身份参与了公司的研发工作。他与两位导师共同分享的7项专利为Tome Biosciences的产品开发提供了重要支持。


与此同时,姜凯议与妻子也迎来了一个新的小生命,正式晋升为“新手爸爸”。提及爱人,姜凯议心怀感激:“我的妻子承担了很多。正是因为有她,我才能无后顾之忧地专心投入到科研工作中。”

 

姜凯议与妻子、女儿

谈及未来,姜凯议表示自己明年5月即将博士毕业,目前还在考虑博士后的工作地点。“我还是想做科研,继续优化现有的模型,并寻找一些临床抗体,尝试利用技术解决一些临床中的痛点。”


*图片均由受访者供图


论文链接:

https://doi.org/10.1126/science.adr6006



编辑 | 方圆

排版 | 郭刚

合作事宜:[email protected]

投稿事宜:[email protected]