近年来,深度学习在预测蛋白
-
蛋白相互作用(
PPI
)复合物的性质方面取得了显著进展。然而,现有的模型大多基于原子尺度或残基尺度的图结构表示,存在计算成本高或无法有效整合精细的化学相互作用细节等问题。
2024年11月7日,
伯明翰大学与澳门理工大学ShanHe团队在
Nature Communication发表文章,
提出了一种名为MCGLPPI的几何表示学习框架,有助于解决以上挑战。该框架结合了图神经网络(GNN)和MARTINI分子粗粒化(CG)模型,能够在保证预测精度的同时,显著降低计算成本。
如图
1
所示,
MCGLPPI
框架主要包含三个部分。首先,图
1a
模块将原子尺度的
PPI
结构转换为
CG
结构,并使用
MARTINI
力场参数生成
CG
复合物图。
MARTINI
模型是蛋白质
MD
模拟中广泛认可的
CG
级模型,将平均四个重原子及其相关的氢原子表示为一个
CG
珠。它将珠表示为多种主要物理类型,包括极性、非极性、疏水性和带电性等等。这些性质作为图表示的节点特征,节点之间的连接则代表珠子之间的相互作用,包括化学键和范德华力等。
图
1b
模块使用
GNN
对
CG
复合物图进行编码,提取其高维几何表示。编码器能够有效地捕捉图中的复杂关系,例如节点之间的距离、角度、二面角等信息,用于亲合性预测、蛋白界面分类的任务。
最后,图
1c
展示了基于
Domain-domaininteraction
(
DDI
)的
CG
尺度图编码器预训练,该模块使用
3DID
数据库中的结构域
-
结构域相互作用结构进行预训练,增强模型对
PPI
下游任务的预测能力。预训练过程采用自监督学习方法,通过对图结构进行扰动和重建,使模型学习到
DDI
结构的普遍规律。
MCGLPPI
在多个基准测试中表现卓越,包括
PDBbind
数据集中的严格蛋白质二聚体子集(
PDBbind-strict-dimer
数据集)、
ATLAS
数据集和
MANY/DC
数据集。
PDBbind-strict-dimer
数据集是
PDBbind
数据集中蛋白
-
蛋白亲合性数据的一个子集,仅包含蛋白质二聚体结构。
ATLAS
数据集包含
T
细胞受体(
TCR
)与主要组织相容性复合体(
pMHC
)形成的复合物结构及其亲合性值。这两个数据集都用于测试模型在亲合性预测任务上的效果。在
PDBbind
和
ATLAS
数据集中,
MCGLPPI
分别实现了相关系数(
RP
)
0.597
和
0.832
,同时
GPU
内存消耗和运行时间较现有的原子尺度和残基尺度模型减少了约
3
倍。表
1
展示了不同模型在
PDBbind-strict-dimer
数据集上的准确率与计算成本。
表1.使用一台A100 GPU 40GB,在PDBbind-strict-dimer数据集上,测试不同方法在batch size为32的情况下,模型的性能和计算成本(MCGLPPI-M2、MCGLPPI-M3分别表示由MARTINI22、MARTINI3生成的CG表示)。
MANY/DC
数据集包含具有生物界面或晶体堆积界面的二聚体结构,结果表明,
MCGLPPI
在区分生物界面与晶体堆积界面任务上表现出色,
AUROC
值达到
0.883
,优于其他原子尺度和残基尺度方法(表
2
)。
表2.使用一台A100 GPU 40GB,在MANY/DC数据集的上测试不同方法在batch size为32的情况下,模型的性能和计算成本(MCGLPPI-M2、MCGLPPI-M3分别表示由MARTINI22、MARTINI3生成的CG表示)。
总体而言,这两种模型在不同批量大小下的性能均优于原子尺度和残基尺度模型。这种性能提升的原因可能在于MARTINI力场的引入,该力场整合了蛋白质热力学和特定二级结构支持信息,这些信息被注入到粗粒度(CG)复合图的键(边)中,为模型提供了相较于原子尺度和残基尺度模型更强的区分能力。
此外,研究人员还尝试了在3DID数据库中的41,663个结构域-结构域结构(DDI)数据上进行预训练,模型在预训练过程中对输入的粗粒化图结构引入噪声(如扰乱节点或边的特征),通过学习恢复原始的无噪声图。这些预训练的知识使模型在后续任务(如PPI亲合性预测和界面分类)中更快地收敛,并具备更好的泛化能力。如图2所示,在PDBbind数据集中,预训练的模型在亲合性预测的相关系数从0.597提升到0.606;在ATLAS上也可观察到预训练对预测结果有一定的帮助。然而,在界面分类的任务上,这一预训练却损害的模型的效果,可能是预训练数据主要来自真实的生物学交互,而分类任务中需要区分的晶体堆积界面并非生物学交互的一部分。
图2.基于DDI扩散去噪的预训练对三个下游数据集性能的影响