作者:李宝珠
编辑:十九
上海交通大学联合上海人工智能实验室,以及上海科技大学和中科院杭州医学院的合作者,共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME。
蛋白质不仅是人体生命活动的执行者,同时也在生物医药、食品加工、酿造业、化工业等多领域发挥着重要作用。所以,人们从未停止围绕蛋白质结构、功能等展开研究,为工业应用场景遴选出符合需求、稳定性高的蛋白质。
然而,从生物体中提取的「野生型」蛋白质,在工业环境中发挥作用所需的理化条件(如温度、pH 值)大多与其原生生物环境相去甚远。换言之,这一类蛋白质的稳定性难以适应严酷的工业环境。因此,为了满足不同应用场景的需求,
往往需要通过突变来改善蛋白质的理化特性,从而提高其在极端温度 / pH 值条件下的稳定性,或是增加酶活性及特异性。
需要注意的是,想要改变蛋白质的生物活性需要对其工作机理进行长达数年的实验研究,不仅耗时费力,同时也愈发难以满足快速变化的改造需求。近年来,蛋白质语言模型的出现,虽然已经极大地提高了蛋白质适配性预测的准确度,但在其稳定性预测精度上仍有欠缺。
真正有意义的蛋白质突变,应该在提高稳定性的同时,仍能保持其生物活性;反之亦然。针对于此,上海交通大学自然科学研究院/物理天文学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀,以及上海科技大学和中科院杭州医学院的合作者,
共同开发出了一种新的蛋白质序列大语言模型预训练方法 PRIME,
同时在蛋白质突变-活性和突变-稳定性预测,以及其他温度相关的表征学习上取得了最佳预测效果。
相关研究以「A General Temperature-Guided Language Model to Design Proteins of Enhanced Stability and Activity」为题,已发表于知名期刊 Science 旗下的 Science Advances。
研究亮点:
* PRIME 能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进
* PRIME 能够有效预测出一种蛋白质的多种属性,使得研究人员在不熟悉的蛋白质领域也能获取成功设计
* PRIME 基于「温度感知」语言模型进行训练,能够更好地捕捉蛋白质序列的温度特征
论文地址:
https://www.science.org/doi/10.1126/sciadv.adr2641
关注公众号,后台回复「温度感知」获取完整 PDF
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:9,600万条数据,探索蛋白质序列与温度之间的关系
通过整合 Uniprot (Universal Protein Resource) 的公开数据,以及通过宏基因组学研究从环境样本中获得的蛋白质序列,
研究人员整理了一个包含 47 亿条天然蛋白质序列的大型数据库 ProteomeAtlas。
* UniProt 是一个提供蛋白质序列和相关详细注释的大型数据库。
在序列筛选过程中,研究人员仅保留了完整长度的序列,并使用生物序列比对工具 MMseqs2 对这些序列进行处理,将序列同一性阈值设置为 50% 以减少冗余,进而识别并注释与细菌菌株最佳生长温度 (optimal growth temperatures, OGT) 相关的序列。
最终,
研究人员以这种方式注释了 9,600 万条蛋白质序列,
为探索蛋白质序列与温度之间的关系提供了丰富的资源。
此外,在模型热稳定性 zero-shot 预测能力分析中,用于研究熔解温度变化 (ΔTm) 的数据集来源于 MPTherm、FireProtDB 和 ProThermDB,并确保所有实验均在相同的 pH 条件下进行。
其中,MPTherm 包含与蛋白质热稳定性相关的实验数据;FireProtDB 专门用于存储与蛋白质热稳定性及功能相关的突变实验数据;ProThermDB 专门收集与蛋白质热力学性质相关的数据。同时,研究人员还结合了深度突变扫描 (DMS) 的数据,主要来源于蛋白质突变分析数据库 ProteinGym。
* ProteinGym 蛋白质突变数据集
https://go.hyper.ai/YlMT5
模型架构:基于「温度感知」的深度学习模型
该研究所提出的新型深度学习模型 PRIME (Protein language model for Intelligent Masked pretraining and Environment prediction),
能够在不依赖提前实验数据的情况下,预测特定蛋白质突变体的性能改进。
该模型基于「温度感知」语言模型进行训练,依赖 9,600 万蛋白质序列的数据集,结合 token 层面的掩码语言建模 (MLM) 任务,和序列层面最优生长温度 (OGT) 预测目标,并通过多任务学习引入 correlation loss 项,能够筛选出具备高温耐受性的蛋白序列,以优化其稳定性和生物活性。
具体而言,
PRIME 由 3 个主要部分组成,
如下图所示。首先是编码器模块 (Encoder module),这是一个用于提取序列潜在特征的 Transformer 编码器。第二个是 MLM 模块,旨在帮助编码器学习氨基酸的上下文表征。同时,MLM 模块还可用于突变体评分。第三个组件是 OGT 预测模块,它可以根据潜在表征预测蛋白质所在生物体的 OGT。
PRIME 的架构设计
PRIME 在预训练阶段的多任务学习包括了 MLM、OGT 预测及 Correlation loss。
其中,
MLM 经常被用作序列数据表征的预训练方法。
在该研究中,噪声蛋白质序列作为输入,部分标记被屏蔽为
或用替代标记表示,训练目标是重建这些噪声标记。这种方法有助于模型捕捉氨基酸之间的依赖关系以及序列的上下文信息,同时还可以利用这一重建过程对突变进行评分。
第二个训练任务是在监督条件下进行优化,研究人员使用一个包含 9,600 万个用 OGT 注释的蛋白质序列数据集来训练 PRIME 模型。该任务的输入为蛋白质序列 (protein sequence),OGT 模块生成的温度值范围为 0° 至 100°C。值得注意的是,OGT 模块和 MLM 模块使用共享编码器运行。
这种结构使模型能够同时捕捉氨基酸上下文信息以及其中与温度相关的序列特征。
PRIME 在温度预测中的应用
最后,研究人员引入了 Correlation loss,促进从预测的 OGT 到 MLM 分属的反馈,对齐 token 和序列层面的任务信息,
使得大模型更好地捕捉蛋白质序列的温度特征。
实验结论:在预测突变蛋白序列的适应性方面优于最先进方法
研究人员通过实验比较了 PRIME 与当前最先进模型在热稳定性上的 zero-shot 预测能力,其中包括了深度学习模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及传统计算方法 GEMME 和 Rosetta。
研究人员使用了来自 MPTherm、FireProtDB 和 ProThermDB 的数据集,其中包含了在相同 pH 环境下收集的熔解温度变化 (ΔTm),并确保每个蛋白质至少有 10 个数据点,共有 66 项检测。同时,该研究还纳入了深度突变扫描 (DMS) 的检测方法,将 ProteinGym 用作测试基准。
结果如下图所示,
PRIME 在预测蛋白质可用性和稳定性方面的表现均优于所有其他方法。
在 ProteinGym 基准测试中(下图中黄色),PRIME 的得分为 0.486,排名第二的 SaProt 得分为 0.457。
在 ΔTm 数据集中(下图中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分为 0.412。
此外,研究人员还在 ProteinGym 的子数据集 ProteinGym-stability 中(下图浅紫色)将 PRIME 与其他方法进行了比较,PRIME 仍然优于所有其他方法。
ΔTm 和 ProteinGym 数据集上的无监督模型基准测试
值得关注的是,为了检测 PRIME 在蛋白质工程实际应用中的有效性及效果,
研究人员还进行了湿实验,选择了 5 种蛋白质进行验证,
包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一个特异性纳米抗体的重链可变区。
在 top 30-45 个单位点突变的实验检验中,超过 30% 的 AI 推荐单点突变体在关键性能,如热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力或者极端碱性条件下的耐受性等方面明显优于野生型蛋白,个别蛋白质的阳性率超过 50%。
PRIME 预测的 5 种蛋白质单位点突变体的结构和实验结果
值得一提的是,团队还基于 PRIME 还展示了一种高效的方法,
可快速获得具备增强活性和稳定性的多位点突变体。
通过这种小样本微调方法,在不到 100 个湿实验样本下,2-4 轮进化就能产生非常优异的蛋白质突变体。
例如 T7 RNA 聚合酶经过 4 轮干湿迭代,成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分产品性能超越国际领先的生物科技公司 (New England Biolabs) 统治市场10年之久的同类产品。并且,在 LbCas12a、T7 RNA 聚合酶的实验中,Pro-PRIME 能将阴性单点突变叠加得到阳性多点突变。