2024年10月4日,南昌大学施绍萍等人在Bioinformatics上发表论文PocketDTA: an advanced multimodal architecture for enhanced prediction of drug−target affinity from 3D structural data of target bindin g pockets。
该论文提出了一种基于先进多模态架构的PocketDTA模型,用于从靶点结合口袋的3D结构数据中增强药物-靶点亲和力的预测。
药物-靶点亲和力预测是药物发现过程中的关键环节,它依赖于对药物(配体)与靶点(通常是蛋白质)之间相互作用强度的准确评估。传统的计算方法,如分子对接(molecular docking)和分子动力学模拟(molecular dynamics simulation),虽然能够精确模拟药物与靶点的结合过程,但在面对复杂多变的生物分子结构时,其计算效率和准确性往往受到限制。
近年来,随着人工智能和深度学习的飞速发展,多模态架构在药物-靶点亲和力预测中展现出了巨大的潜力。其中,PocketDTA作为一种先进的多模态架构,能够从靶点结合口袋的3D结构数据中提取关键信息,从而显著增强药物-靶点亲和力的预测能力。在本文中,作者提出了一种名为PocketDTA的新方法,该方法不仅融合了药物和靶点的序列与结构信息,还通过几何深度学习技术精确捕捉了靶点结合口袋的3D特征。与传统方法相比,PocketDTA在保持较低计算复杂度的同时,实现了更高的预测精度。在与当前最优方法(SOTA)的比较中,PocketDTA在多个评估指标上均展现出了显著优势。
值得注意的是,
PocketDTA的成功不仅在于其先进的模型架构,更在于其对数据质量的深刻理解和优化。
作者通过提取高置信度的蛋白质3D坐标,并对结合口袋进行预处理,显著提高了模型对药物-靶点亲和力的预测能力。这一发现进一步强调了数据质量在推动药物发现领域进步中的重要性。
PocketDTA的总体流程如下:
(A)数据预处理模块:包括更新目标序列、移除冗余样本、获取目标的三维坐标、提取高精度蛋白质结构域以获取精确的三维坐标,以及获取目标结合口袋等步骤。
(B)多模态表示与特征提取模块:涉及药物和目标的序列与结构表征,随后进行特定的特征提取过程。
(C)交互融合模块:将(B)中提取的药物和目标特征进行融合,并使用双线性注意力网络模拟它们之间的相互作用。
实验中,使用了两个公开可用的基准数据集,即Davis和KIBA ,来评估PocketDTA的性能。
评价指标包括均方误差(MSE)、一致性指数(CI)、决定系数(r²)、皮尔逊相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)等统计指标。
-
在实验中研究了各种药物及其靶点的序列和结构特征,以确定最适合药物-靶点亲和力(DTA)任务的特征。
-
在药物序列表示方面,评估了Morgan指纹、Mol2Vec和Mole-BERT等分子嵌入方法。研究结果表明,在两个基准数据集上,根据所有性能评价指标,Morgan指纹的表现均优于其他方法
-
在药物结构表示方面,比较了GraphMVP、GraphMVP-C、GraphMVP-G和3Dinfomax等方法。在这些方法中,GraphMVP表现最佳,超越了其他技术。
-
在靶点序列表示方面,评估了领先的蛋白质预训练模型的嵌入:ESM-2、ProtBert和ProtT5。图3C显示,在Davis数据集上,ProtBert的表现优于其他模型,而ESM-2在KIBA数据集上表现最佳。
-
在靶点结构表示方面,评估了从原始和处理后的蛋白质三维坐标预测中得出的前三个结合口袋的总序列长度和平均pLDDT值分布。结果表明,更高置信度的结构信息可以提高性能,这表明数据质量的改进对于推动药物-靶点亲和力(DTA)领域的发展至关重要。
图1.基准数据集上各种表示方法的MSE条形箱形图比较分析
表1. 基准数据集上不同口袋数量情境下预测结果的比较分析。
如表1所示,在所有评估指标中,使用前3个预测的结合口袋作为靶点结构输入获得了最佳性能。此外,由于前3个口袋已经包含了大多数的结合位点,因此决定选择前3个结合口袋。
与SOTA方法的性能比较评估
表2. PocketDTA与其他SOTA模型在基准数据集上的性能比较分析。
使用了三种新颖的数据集分割策略:冷药物、冷靶点和全部冷启动,以评估DTA模型的泛化性能。表3展示了KIBA数据集上的冷启动实验结果。与其他基准模型相比,PocketDTA在三种数据分割方法下均表现出优越的预测性能,凸显了模型适应新环境的鲁棒性。