来源:王怀民实验室
一粒细菌侵入了人体。
它在体内开始游荡,试图释放细菌毒素,开启它的致病之旅。此时,身体里的 「 防御素 」 被吸引而来,它们在细菌膜表面积累至临界浓度,而后瞬间启动自组装程序 —— 像乐高积木一样自行组装,结成一张纳米纤维网以避免感染,或是直接 「 拆开 」 细菌表面。
危机解除,一场潜在的疾病就这样化解于无形。
人体是一个极度复杂的巨大机器,以防御素为代表的的多肽类物质,是其中极为重要的一类 「 分子零件 」。它的本质是蛋白质片段,科学家希望破解多肽的奥秘,借此创造全新的多肽功能分子,为人类所用。
3 月 14 日,未来产业研究中心、西湖大学理学院王怀民实验室,联合未来产业研究中心、西湖大学生命科学学院黄晶团队,在《自然 · 材料》上发表最新一项科研成果 —— 他们开发了人工智能模型 TransSAFP,首次实现对多肽分子自组装行为及生物功能的精准预测,且效率可提升百亿倍。
论文链接:
https://www.nature.com/articles/s41563-025-02164-3
有生命的乐高积木
多肽是一种由两个或以上氨基酸组成的生物活性物质,两个氨基酸连接成为二肽,三个氨基酸为三肽 …… 简单理解,多肽是一种介于氨基酸和蛋白质之间的存在。人的生长发育、免疫调节、新陈代谢都与之息息相关。我们耳熟能详的 「 胰岛素 」,就是人类最早使用的多肽类药物。王怀民实验室,即以多肽为基础,开发设计各种新型的生物功能材料。
而自组装多肽,顾名思义,就像有生命的乐高积木,能够自行完成组装。事实上,自组装是生命体中普遍存在的现象,正如细胞膜的形成、蛋白质的折叠。他们本质都是通过分子间的非共价作用(氢键、疏水、静电作用等),形成聚合体的过程。
多肽在自组装后形成的常见结构,包括纳米纤维、囊泡或纳米管等
这样的特性,让科学家设计不同形态、不同功能的多肽分子成为可能。以治疗疾病为例:就像是向人体精准空投弹药,正常组织中,他们只是平平无奇的氨基酸链条,而到了特定的区域,它们被大量激活,并组装成为能够杀敌的武器。精准制导不误伤无辜细胞,也就不易引起毒副作用。
对了,多肽的自组装往往还都是可逆的:完成使命后,多肽能分解代谢,回归无生物毒性的天然氨基酸,事了拂衣去。
对王怀民实验室而言,多肽是一个泛用性极强的工具,实验室利用它探索癌症、肺纤维化、糖尿病并发症等各种疾病治疗,以及调控细胞行为、监测重要生命活动 ……
此间种种,都是人类在自然的基础之上,摆弄分子积木。就像用乐高,搭建一个人类不曾见过的城堡。
从 「 盲人摸象 」 到 「 上帝视角 」
但是要从大自然的手中接过多肽设计的权杖,并非易事。和蛋白质一样,人类想要了解 「 多肽宇宙 」 的全貌都是一件难事。
前文提到,多肽由数个氨基酸构成。世界上共有 20 种天然氨基酸,以不同方式排列组合后,四肽共有 16 万种可能,五肽有 320 万种可能。
此次实验室研究的八肽呢?200 亿种。
假设地球上存在一名苦哈哈的博士,他不知疲倦地平均每周合成并验证一条八肽,每次合成的结果还都不重复。那么他从四亿年前的泥盆纪开始工作,到现在差不多合完了。
过去数十年,人们对自组装多肽的发现,主要依靠实验。科学家也积累了一些经验,但 「 手搓 」 更多还是依赖试错。像是盲人摸象,难言实现系统性的 「 设计优化 」。
近年来,科学家开始用 AlphaFold 预测蛋白质三维结构,也用深度学习算法预测多肽。但王怀民介绍,现有 AI 模型还无法对多肽的自组装行为和功能进行精准预测。换句话说,科学家能预测出一列多肽的形状,但至于功能?还得回到实验室做更多验证。
所以实现对自组装功能多肽(self-assembling functional peptides, SAFP)的精准预测,成为了这项课题的核心。
其实在 2020 年,王怀民就已经产生了这一研究想法,但苦于人手不足,一直未能落地。彼时他刚从美国布兰迪斯大学化学系加盟西湖大学。
时间来到 2022 年,此时实验室在多肽自组装领域已经有了一定积累:徐腾焱博士等进行的自组装多肽的设计和预测工作开始投稿,博士生周子傲等做的抗菌研究工作也取得良好的实验结果。在既有基础之上,刘华杨入组,开始了自组装多肽抗菌能力的预测研究。
刘华杨此前有抗菌分子组装的研究经验,同时也对人工智能充满兴趣。他一边合成并验证自组装多肽,一边通过深度学习算法,试图教会 AI 人体的秘密。但随着研究进行,他们发现 AI 并不能完全实现自己想要的预测能力。「 当时研究已经初步有了苗头,感觉可以深入挖掘一下。王老师跟黄晶老师一商量,觉得这个模型还可以再做进一步的提升。」
走在路上,遇到其他科研工作者,然后展开一番交叉领域的讨论,这是西湖大学校园常常发生的故事。西湖大学云栖校区的道路,当时见证了王怀民与生命科学学院黄晶教授、工学院李文彬教授等,就多肽展开的多番讨论。
2022 年 12 月,黄晶课题组宋子林博士加入这项研究。那个月,ChatGPT 横空出世,连普通人都能感受到 AI 袭来的风压。
两个课题组讨论并重新梳理了 AI 模型及具体策略,最终使用迁移学习的方式来训练 AI:首先利用公开的天然氨基酸抗菌肽数据库,预训练模型,而后将此前合成的 400 多条自组装多肽,作为小样本信息迁移到公开数据库中。为了进一步增加样本的复杂性,在合成时刘华杨还在 20 种天然氨基酸基础上,添加了 11 种非天然氨基酸。
「 公开数据集的体量是六七万条,相比之下,我们标注的数据大约只有千分之五。如果不做迁移学习,我们的数据一旦混进去,自组装功能肽的数据分布信息会被大量的公开数据稀释掉。」 刘华杨解释道。
在数据准备、架构设计和模型训练各环节上的精益求精,获得了最终的迁移学习预测模型,实验团队将模型命名为 TransSAFP。
实验证明,TransSAFP 的自组装多肽功能预测准确率高达 86%。而后,团队让 TransSAFP 把 200 亿条八肽序列全库筛了一遍,花费四天时间。还记得那个花了四亿年合成八肽的 「 博士 」 吗?从这个角度说,AI 帮助科学家的研究效率提高了百亿倍。
TransSAFP 筛选的自组装抗菌多肽相比已知抗菌肽具有较低相似度
更值得一提的是,AI 筛完全库后发现,此次预测结果与已知自组装抗菌肽的序列相似度低于 0.3。
0.3 的含义这里不做过多的解释。简单理解,AI 输出的这批具有抗菌能力的自组装多肽,几乎都是全新的,或者说,人类未曾发现过它们 —— 这正是预测的意义。
研究团队还进一步,从中选择了体外效果最好的一条多肽,验证其在肠道感染小鼠模型上的表现。实验显示,这条新多肽治疗效果与抗生素类似;同时,因为是机械力破坏细菌膜,还不会像抗生素那样让细菌产生耐药性。
TransSAFP 筛选的 p45 分子靶向细菌膜并形成组装体,导致细菌死亡
借助 AI,人类对多肽的结构预测能力,以及研究效率都得到了极大提升。研究者拥有了一个能够俯瞰多肽的 「 上帝视角 」。
改变研究范式
回到文章最初提到的 「 胰岛素 」,这是人类第一次使用多肽类药物,始于 1922 年。时隔 97 年之后,一款糖尿病及肥胖症的口服类多肽药物 —— 司美格鲁肽获批上市。研发人员对这条由 31 个氨基酸组成的多肽的关键部位进行了修饰,让其可以在体内组装成为纳米结构,从而大大延长了药物在体内的降解周期。2023 年,司美格鲁肽全球卖了超过 200 亿美元。