2024年的诺贝尔化学奖奖励给了DeepMind,由于DeepMind团队开发的AlphaFold2解决了生物学上长达大半个世纪的难题,蛋白质序列到三维结构的预测。后Alphafold时代,蛋白质科学的关键问题是什么?一定是蛋白质功能,因为只有具备好的功能(高活性,高选择性,高稳定性)才能成为商业化的蛋白产品。然而蛋白质功能预测非常困难。一个常识是:一条蛋白质序列只要改变1%,获得的新蛋白95%活性大幅降低甚至完全没有生物功能,而用AlphaFold2去预测这些序列的结构基本没有变化。这表明蛋白质结构不等于功能,结构是功能的必要非充分条件,而且非常不充分。
为了解决蛋白质功能预测,上海交通大学洪亮教授组织的联合团队(上海交通大学自然科学研究院,物理天文学院,药学院,张江高等研究院,生命科学技术学院,上海人工智能实验室,华东理工大学信息与科学工程学院,上海科技大学生命科学与技术学院)在过去几年长期致力于数据收集,清洗,打标签,AI模型探索,打造了Pro系列,并以《A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity》为题发表在《Science Advances》期刊上。
经湿实验检测,在5款蛋白质中(图1),Pro-PRIME模型的零样本预测得到的top-45的单点突变阳性率都超过30%,这比传统高通量随机筛选高出十倍以上的准确率。其中有的是提高蛋白的催化活性,有的是热稳定性,有的是抵抗极端pH,有的是合成非天然底物的能力,说明该模型的通用能力。而且通过小样本微调方法,在不到100个湿实验样本下,2-4轮进化就能产生非常优异的蛋白质突变体,例如T7 RNA聚合酶经过4轮干湿迭代成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体Tm高出野生型12.8℃,活性是野生的近4倍,且部分产品性能超越国际领先的生物科技公司统治市场10年之久的同类产品。