2024年1月29日,PNAS上发表文章Transfer learning to leverage larger datasets for improved prediction of protein stability changes,介绍了
用于预测蛋白质热稳定性的模型:ThermoMPNN
。ThermoMPNN-D最近也发表在了Protein Science,可以预测双氨基酸突变后热稳定性的变化。
热稳定性是蛋白质的一个关键特性,然而自然进化的蛋白质在常温条件下通常仅具有边际稳定性[有一定热稳定性,足以维持功能,但是并不高]。
目前已经有若干基于深度学习的方法来预测单氨基酸突变后蛋白质热稳定性的变化。ThermoMPNN是基于ProteinMPNN衍生出来的模型。见下图。
图1 ThermoMPNN模型图:ProteinMPNN + Prediction module
ProteinMPNN使用了整个PDB中的19700个蛋白簇进行训练
,目标是根据给定的蛋白质骨架预测天然序列,它通过预测每个位置的天然残基的概率来实现这一点。这些预测是基于从PDB中的天然蛋白质中学习到的结构模式。知道了ProteinMPNN的原理,就引出了ThermoMPNN的动机:通过使用预训练的ProteinMPNN嵌入作为输入特征,结合迁移学习,利用了序列恢复和稳定性优化任务之间的知识重叠:已知结构的天然蛋白质序列通常被认为在常温下至少是边际稳定的,因此,ProteinMPNN预测的氨基酸概率与相应点突变体的稳定性变化应具有相关性。
推荐阅读ProteinMPNN具体解析,再看ThermoMPNN的框架便一目了然。
Science|蛋白设计:一文讲清楚ProteinMPNN
该方法本质上是通过比较突变前后氨基酸在特定位置的打分来预测突变对蛋白质稳定性的影响
。
图2 ThermoMPNN模型图:ProteinMPNN + Prediction module
模型的输入:野生型的蛋白质结构以及野生型的蛋白质序列。突变信息并未直接作为输入。在ProteinMPNN模块中,Encoder结合蛋白质的结构和序列信息,Encoder的输出不会直接被使用,而是作为Decoder的输入;Decoder有3层,图中每个Decoder层的右侧都有一个紫色条,这代表突变位置的氨基酸embedding。将三层decoder突变位置氨基酸的embedding和序列嵌入中突变位置氨基酸的embedding拼接起来,生成Stability Prediction Module的输入向量。
图3 LA Block(Light Attention)
[1]
由于这里只涉及一个位置的氨基酸,所以不涉及max和sum的操作,只是将Attention和values点积之后接全连接层。MLP Block会输出一个大小为VOCAB_DIM的向量,对应20种氨基酸的得分。通过比较突变前后氨基酸位置的得分差异来预测ddG。
aa_index = ALPHABET.index(mut.mutation)
wt_aa_index = ALPHABET.index(mut.wildtype)
ddg = ddg_out[aa_index][0] - ddg_out[wt_aa_index][0]
本研究使用的Megascale数据集 来自Tsuboyama等人的研究
[2]
,通过蛋白酶敏感性实验推导出ΔΔG°值,覆盖 776,000个数据点,远超以往低通量生物物理实验的数据规模。为了提高数据可靠性,对原始数据进行了清洗:首先,去除了因表达不足、测量值超出动态范围或两种蛋白酶间相关性较差而被标记为“不可靠”的数据点,保留607,839个可靠突变;其次,去除了插入、删除和双点突变,保留391,090个单点突变;最后,排除了使用修改过的野生型背景蛋白质的突变(约占12%),以避免由计算预测结构引入的不准确性或非局部构象变化的影响。最终数据集包含272,712个突变,覆盖298个蛋白质。
图5 Megascale和Fireprot的数据集差异
为了评估模型在传统生物物理技术和实验解析结构上的热力学稳定性数据表现,从FireProtDB数据库匹配到PDB的实验结构,构建了一个额外数据集。经过去重、清理缺失信息并选择最接近生物pH的测量值后,最终得到包含3,438个突变、覆盖100个独特蛋白质 的Fireprot数据集,其规模与常见的文献训练集相当(如S2648、Q3421、Q3488),且具有显著的蛋白同源性重叠。随后,使用MMseqs2对Megascale和Fireprot数据集进行聚类,采用严格的序列同一性阈值(25%),并通过交叉引用检测同源性重叠。任何具有同源性的蛋白簇都被分配至相应的训练集,以确保测试集中蛋白与训练集无同源关系。剩余的突变数据按80/10/10随机划分为训练、验证和测试集。此外,对于Fireprot数据集,包含>250数据点的蛋白被直接分配至训练集,以避免其在验证或测试集中造成结果偏差。最后,构建了一个Fireprot “同源去除” (HF) 数据集,用于评估仅在Megascale数据集上训练的模型,其排除了所有与 Megascale 蛋白同源的Fireprot数据点。
通过迁移学习的ThermoMPNN模型显著提升了性能。重要的是,从经过序列恢复训练优化的ProteinMPNN权重开始迁移学习至关重要,直接从随机权重训练会导致显著性能下降。然而,对预训练权重进行微调(fine-tuning)效果不一,尽管在Megascale数据集上略有提升,但在Fireprot数据集上的表现与迁移学习相近并且伴随明显的过拟合现象,见下图。
图中展示了ThermoMPNN模型的性能分析,主要从训练数据集依赖性、预测与实验数据的相关性、每个蛋白的表现以及结构依赖性四个方面进行了评估。结果表明,不同的训练数据集对模型的预测性能有显著影响,联合使用Megascale和Fireprot数据进行训练可以提升在两个测试集上的表现。预测的ΔΔG与实验值之间在两个测试集上都呈现较高的相关性(SCC和PCC)。模型的每蛋白预测误差(RMSE)随蛋白长度变化,天然蛋白与新设计蛋白的误差分布有所不同。此外,模型在基于X射线结构和NMR结构的蛋白预测中均表现出较高的相关性,表明其性能在不同结构数据上具有鲁棒性。
图中对ThermoMPNN在几个典型蛋白(P53、S. Nuclease、Myoglobin、T4 Lysozyme)上的预测性能与其他文献方法进行了对比。左侧和右侧分别展示了ThermoMPNN预测的ΔΔGpred与实验值ΔΔGexp的散点图及线性回归结果,显示出较高的相关性(PCC),表明模型在这些蛋白上的预测能力较强。中间柱状图总结了不同方法的PCC值,区分了是否进行无同源蛋白的“无偏训练”(Unbiased Training)。结果显示,ThermoMPNN的PCC值在多种蛋白上表现优异,优于大多数传统方法(如Rosetta和FoldX)。同时,还特别强调了数据泄露问题的控制(用浅色柱表示),进一步验证了ThermoMPNN的可靠性和普适性。这些结果说明ThermoMPNN在蛋白稳定性预测领域具有显著优势。