今天为大家介绍的是来自英国伯明翰大学、澳门理工大学Shan He团队与深圳大学朱泽轩的一篇论文。基于结构的机器学习算法已经被用于预测蛋白质-蛋白质相互作用(PPI)复合物的性质,例如结合亲和力,这对于理解生物机制和疾病治疗至关重要。目前,大多数现有算法在原子级或残基级表示PPI复合物的图结构,但这些表示可能计算成本高昂,或未能充分整合更精细的化学合理性互动细节。作者在此提出了一种几何表示学习框架MCGLPPI,该框架结合了图神经网络(GNNs)与MARTINI分子粗粒度(CG)模型,能够准确且高效地预测PPI整体性质。大量基于三种下游PPI性质预测任务的实验表明,在CG级别上,MCGLPPI相比原子级和残基级方法展现出具有竞争力的性能,但计算资源消耗仅为其三分之一。此外,在蛋白质结构域-结构域相互作用结构上进行CG级别的预训练,进一步增强了其在PPI任务中的预测能力。MCGLPPI为PPI整体性质预测提供了一种高效有效的解决方案,是大规模生物分子相互作用分析的一个有前景的工具。
蛋白质的三维(3D)结构是其生物功能的基础。为了深入理解PPI的生物学意义和其中的详细机制,解析蛋白质复合物的几何结构变得至关重要。在众多计算方法中,图神经网络(GNN)因其在处理蛋白质3D结构方面的卓越能力而脱颖而出。值得注意的是,在基于GNN的方法中,蛋白质被表示为图结构,其中节点对应于重原子(即原子级模型)或氨基酸(即残基级模型)。然而,每种方法都有其权衡。原子级模型尽管细节丰富,但需要处理成千上万个节点,计算资源需求极高,限制了其在大型PPI系统中的应用。而残基级模型计算更加简便,但可能忽略影响特异性和亲和力的关键结合细节。
为了解决这些局限,可以将多尺度信息整合到节点特征和边的连接中。然而,这种整合需要跨尺度的复杂信息交换,同时还要保持模型的一致性和物理相关性,这会使设计过程更加复杂。此外,在原子级和残基级模型中,边通常基于顺序阈值或几何距离来表示相互作用,旨在捕捉蛋白质结构与功能之间的复杂关系。然而,使用这些标准定义连接可能会误导化学键的表示,从而影响预测的准确性。
一种潜在的解决方案是采用粗粒化(CG)建模,这是一种在蛋白质分子动力学(MD)模拟中成熟的框架,旨在有效平衡保留必要分子细节与提高计算效率之间的关系。CG级别的表示将原子组简化为单一的表示点,例如氨基酸侧链或特定的化学基团。MARTINI模型是蛋白质MD模拟中广泛认可的CG级模型,将平均四个重原子及其相关的氢原子表示为一个CG珠。它将珠分类为多种主要物理类型,包括极性(P)、非极性(N)、非极性但疏水性(C)、带电(Q)等,并根据氢键能力或极性进一步划分子类型。除了多种珠类型,该模型还包括大量化学合理的相互作用参数,包括键连接(键、角和二面角)和非键连接参数,以直接且准确地反映氨基酸侧链的分配自由能。通过这种策略,MARTINI模型保留了必要的分子相互作用特征,同时显著降低了计算需求。该模型已在许多与PPI相关的研究中成功应用和验证。
尽管CG级别建模提高了效率,其模拟仍然比使用AI技术进行PPI预测消耗更多资源。以往将CG级模型与机器学习(ML)或深度学习(DL)方法结合的研究主要集中在优化力场势能参数、预测肽的自组装形状以及将CG级模型还原为原子级结构。然而,将AI与CG建模相结合以预测PPI性质的综合方法仍然是一个尚未深入研究的领域。
作者在MCGLPPI框架中整合了生物分子的CG结构、力场参数以及几何感知的GNN,用于高效预测蛋白质-蛋白质复合物的整体性质。该框架由三个主要部分组成:(1) CG尺度复合物图生成(构建),(2) CG尺度几何表示学习,(3) 基于DDI的CG尺度图编码器预训练。框架及其各组成部分的综合概述见图1。以下各分三章节来讲解其各个模块的具体流程步骤。
基于结构的蛋白质-蛋白质相互作用(PPI)复合物性质预测通常需要高质量的蛋白质几何图表示学习。图中节点和边的数量会显著影响计算成本。同时,确保图的结构具有化学合理性至关重要,因为这是准确描述蛋白质复合物性质的关键。
在此基础上,作者引入了一种基于粗粒度(CG)尺度的MARTINI参数化方法,旨在高效地在化学合理的相互作用表征与计算成本之间实现平衡。该过程从将原子级的PPI结构转化为CG尺度结构开始,同时生成一套针对MARTINI模型的完整CG尺度力场参数(包括广泛使用的MARTINI2模型和最新的MARTINI3模型,二者的主要区别在于MARTINI3引入了更多的粒子类型和粒子数量,稍微提高了粒子分辨率)。这种简化通过将多个原子组合成少量的代表性粒子,将高分辨率的原子模型简化为计算上更容易执行的形式。生成的参数从不同角度描述了这些粒子之间的化学和物理相互作用(图2)。
在将结构数据与力场参数整合后,构建了一个对应于蛋白质复合物的多关系图(图1a和图2)。在该图中,每个珠子(代表一组重原子)被表示为一个节点。主链珠(B)之间的键,或侧链(S)与侧链或主链珠之间的键,根据其类型和长度定义,被转换为连接这些节点的边。值得注意的是,这些节点和边的数量简洁(即,用于描绘一个蛋白质复合物所需的总数相对较少),从而在保持化学准确性的同时实现高效的蛋白质建模。
在MARTINI框架中,蛋白质的二级结构在确定每个残基的珠类型及其相关的键、角和二面角参数方面起着关键作用。例如,对于被定义为螺旋(H)或扩展链(E)区域的部分,使用了特定的键类型,如约束键(constraint bond)或长谐波键(long harmonic bond)。而对于不规则的二级结构(如coil、turn和bend),则采用其他主链键参数。在作者的CG级复合物图中,边的类型也反映了这些区别,从而能够准确描述蛋白质复合物内的二级结构特征。
此外,引入了两种不同的边类型和,以区分来源于相同或不同氨基酸残基的珠节点,从而提供关于残基内部和残基之间空间排列关系和相互作用的有价值的层次几何信息。另外,其他关键的力场参数,例如珠类型、键角和二面角,被编码为图中的节点特征(如图2所示)。这些特征对于捕捉蛋白质片段的空间方向和潜在运动至关重要。
此外,当MARTINI生成键长、键角和二面角的力场参数时,其提供的内容包括珠的组成(即这些键和角由哪些珠构成)以及这些键长和键角的具体数值。这些数值并非来源于对应的真实构象,而是基于蛋白质数据银行(PDB)数据库中样本的统计值。为了使这些数值针对各个参数更为具体,从而精确构建CG图,作者基于实际坐标重新校准了这些参数,并为其分配了适当的特征值。
为了降低计算开销并保持不同PPI结构数据的完整性,作者在前面生成的CG级复合物图上实施了一种基于残基主链距离的双策略裁剪方法(图1b)。第一种策略是核心区域裁剪(core region cropping),重点提取两个蛋白质之间的交互界面,只提取反应中最关键的区域,从而可能提高模型预测的准确性和相关性。而第二种策略是相邻区域裁剪(adjacent region cropping),用于捕获核心界面周围次要但可能很重要的结构信息,例如与核心界面空间相关的重要结构基序。通过这些策略,可以生成一种在详细结构信息保留与计算可行性之间取得平衡的图,无论交互的特征是怎样子的。
作者将裁剪方法应用于精心整理的下游数据集中的每个复合物样本,这些数据集包括两种与结合亲和力相关的回归任务以及一种界面类型分类任务。这些任务涵盖范围很广,从简单的二聚体复合物,到T细胞与抗原肽的结合形成的复合物。
随后,作者使用了一个基于多关系异构GNN的CG图编码器,该编码器能够高效编码裁剪后图中图节点和边之间的复杂关系。生成的高质量几何表征随后输入到任务特定的预测网络中,从而实现对相应复合物整体属性的准确预测。
结构域是蛋白质中的基本结构单元,通常负责特定功能。它们在调节与其他蛋白质的相互作用中起着关键作用,无论是单个复杂蛋白质内的相互作用(蛋白内相互作用),还是两个不同蛋白质之间的相互作用(蛋白间相互作用)。尽管用于蛋白质相互作用(PPI)的详细且标注的三维结构数据较为有限,但丰富的域间相互作用(DDI)结构信息为通过预训练优化计算模型提供了宝贵的机会。为此,作者使用了Three-Dimensional Interacting Domains(3DID)数据库来构建一个数据集,以适配用于预训练CG级图编码器的需求。
作者采用了一种基于去噪的自监督预训练方法,这种方法改编自Zhang等人(唐建团队),用于指导粗粒度图编码器学习域间相互作用(DDI)结构和序列的复杂模式。具体来说,该方法向预训练DDI数据集中的每个CG图引入扰动,然后强制编码器重构原始的图信息,从而使其掌握域间相互作用的基本特性(详见图1c)。在预训练阶段结束后,经过DDI数据集知识增强的编码器将进行微调,以应对下游的蛋白质相互作用(PPI)预测任务。在微调过程中,编码器将预训练中学到的域间相互作用原则应用于下游PPI场景,可能进一步提升其预测能力。
为了验证所提出的MCGLPPI框架在PPI复合物整体属性预测中的性能和计算成本,作者首先整理了三个数据集:(1) PDBbind数据集中的严格蛋白质二聚体子集(PDBbind-strict-dimer数据集),(2) ATLAS数据集,以及(3) MANY/DC数据集。前两个数据集用于评估模型的回归能力(蛋白质-蛋白质结合亲和力预测),而MANY/DC数据集用于评估整体分类性能(蛋白质复合物界面分类)。
作者成功从PDBbind数据集提取了具有严格二聚体结构的蛋白质-蛋白质复合物样本。经过样本校正和标签统一(即将所有相关样本的结合亲和力标签转换为ΔG),最终获得了1270个具有ΔG结合亲和力标签的二聚体样本,称为PDBbind严格二聚体数据集。模型评估采用标准的十折交叉验证(CV)策略,将上述样本均匀分为10份,每次迭代中选取一份作为测试集,其余部分作为训练集。为了在不同尺度下公平比较模型性能,作者对采用的蛋白质图编码器GearNet-Edge的原子尺度和残基尺度版本进行了比较,使用了其默认的模型设置(即与蛋白质图构建和几何编码器超参数相关的设置)。此外,还使用了针对解决3D大分子结构,特别是蛋白质-蛋白质复合物问题设计的原子尺度几何编码器GVP-GNN。
为了全面量化这些方法在有限轻量级计算资源下的成本,作者使用了一台单NVIDIA A100 GPU(40GB)进行对比实验。对于每种方法,基于相同的150个训练周期,从批量大小为8开始,逐步以2倍的增量增加,直到GPU内存不足(OOM),并记录了相应的评估指标、内存使用情况以及在上述十折交叉验证中的总时间成本。
对于原子尺度和残基尺度的GearNet-Edge模型,其在1270个样本中成功识别出915个样本。为了确保公平比较,首先对PDBbind严格二聚体数据集中的这915个子集进行了对比实验。表1展示了相应的结果。在当前实验条件下,主要发现包括:(1) MCGLPPI的表现优于其原子尺度和残基尺度的对应模型;(2) 在相同的批量大小下,与原子尺度和残基尺度模型相比,MCGLPPI分别减少了大约5倍和3倍的GPU内存使用,以及3倍和3倍的总时间成本,同时保持了相当的性能。这些结果证明了引入基于MARTINI的粗粒度(CG)尺度表示在性能与计算成本之间实现更好平衡的有效性和可行性。(3)基于MARTINI3的MCGLPPI在最佳批量大小(64)下的表现略优于基于MARTINI22的结果,但由于粒子类型和数量的增加,计算开销也略有增加。
为了进一步研究MCGLPPI在处理超出标准二聚体的复杂PPI结构中的有效性,作者选用了ATLAS数据集。该数据集包含细胞介导免疫过程中形成的TCR-pMHC结构及其相应的结合亲和力值。在移除无效样本、校正样本并统一标签后,获得了531个带有ΔG标签的不同结构。需要注意的是,作者使用了通过Rosetta的固定主链设计选项优化的结构,据报道这些结构具有很高的结构精度。
作者使用相同的实验设置,进行了标准的十折交叉验证,并记录了相应的评估结果。此外,在531个整理后的样本中,有451个可以被原子尺度和残基尺度的GearNet-Edge有效处理,基于这些样本进行了全面的对比实验。
表2展示了在451个样本的ATLAS子集上进行十折交叉验证的预测性能和计算成本。此外,作者报告了MCGLPPI-M2和MCGLPPI-M3在完整ATLAS整理数据集上的最佳表现:RP为0.809/0.823,RMSE为1.116/1.053,MAE为0.837/0.803,GPU内存使用为13,615/16,108 MB,总耗时为6982/7915秒。值得注意的是,在处理超出标准二聚体的复杂蛋白质-蛋白质结构时,提出的MCGLPPI模型保持了竞争性的性能,并且与其原子尺度和残基尺度的对应模型相比,展现了相对较低的计算成本。这进一步验证了所设计的基于粗粒度(CG)尺度的蛋白质复合物几何模型及其裁剪功能的有效性。在“图裁剪对模型整体效率的影响”部分还进行了裁剪功能必要性的额外研究。
除了前述的两个亲和力预测的回归任务外,作者还加入了一个蛋白质-蛋白质复合物的整体界面分类任务,以进一步检验MCGLPPI的泛化能力。具体来说,使用了MANY数据集中5739个二聚体和DC数据集中161个二聚体。这些二聚体被划分为两类:具有生物学界面或晶体界面的二聚体。基于这一分类,模型被训练用于区分这两种界面类型,并将其定义为一个二元复杂图分类任务。按照先前的数据划分惯例,MANY数据集中80%的样本作为训练集,20%的样本作为可选验证集,同时使用完整的DC数据集作为测试集进行模型评估(对于MANY数据集的划分,保持了正样本和负样本的平衡)。
实验设置延续了前两节的配置(统一的训练周期数从150调整为30)。此外,作者将方法与两个现有方法DeepRank-GNN和EGGNet进行了对比,这些方法已在完整的MANY/DC数据集上进行了测试。然而,需要注意的是,原子尺度和残基尺度的GearNet-Edge在MANY和DC数据集上的有效样本数量分别为5535和151。此外,像DeepRank-GNN这样的现有方法在节点特征构建时依赖耗时的外部氨基酸序列比对搜索,这使得计算成本的公平比较变得困难。因此,作者仅对其在完整MANY/DC数据集上的预测性能进行了对比,同时针对5535-151样本子集(按前述数据划分模式)对原子尺度和残基尺度的GearNet-Edge模型进行了详细的计算成本对比实验。
计算成本对比实验的结果如表3所示。实验发现,与原子尺度和残基尺度的模型相比,MCGLPPI在计算成本更低的同时,预测能力也更强。具体来说,MCGLPPI-M2和MCGLPPI-M3在批量大小为64的情况下表现出色,其AUROC值分别为0.890和0.882,AUPR值分别为0.871和0.881。总体而言,这两种模型在不同批量大小下的性能均优于原子尺度和残基尺度模型。这种性能提升的原因可能在于MARTINI力场的引入,该力场整合了蛋白质热力学和特定二级结构支持信息,这些信息被注入到粗粒度(CG)复合图的键(边)中,为模型提供了相较于原子尺度和残基尺度模型更强的区分能力。
Yue, Y., Li, S., Cheng, Y., Wang, L., Hou, T., Zhu, Z., & He, S. (2024). Integration of molecular coarse-grained model into geometric representation learning framework for protein-protein complex property prediction. Nature Communications, 15(1), 9629.