专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
手游那点事  ·  这公司果然一出新作就被问爆了! ·  昨天  
河南省发改委  ·  互动H5丨玩游戏,领奖品,豫见开门红! ·  17 小时前  
河南新闻广播  ·  1.77万亿!蜜雪新股认购创纪录,能否终结破 ... ·  昨天  
河南新闻广播  ·  张家明接受纪律审查和监察调查 ·  昨天  
河南新闻广播  ·  2024胡润中国500强出炉!河南这些企业上 ... ·  2 天前  
51好读  ›  专栏  ›  智药邦

北京大学王劲卓团队提出DrugLAMP模型,通过多模态预训练语言模型进行药物-靶点相互作用预测

智药邦  · 公众号  ·  · 2025-01-13 08:00

正文

准确预测药物-靶点相互作用(DTI),特别是准确预测新的靶点或药物的相互作用,对于加速药物发现至关重要。预训练语言模型(PLM)和多模态学习的最新进展,为利用大量未标记的分子数据和整合来自多模态的互补信息来增强DTI预测,提供了新的机会。
2024年11月21日,北京大学王劲卓老师团队在Bioinformatics上发表文章Accurate and transferable drug–target interaction prediction with DrugLAMP。
作者提出了DrugLAMP(pretrained Language model-Assisted Multi-modal Prediction for drug-target interaction,通过多模态预训练语言模型进行药物-靶点相互作用预测)。 DrugLAMP是一个基于预训练语言模型(PLM)的多模态框架,集成了PLM和传统特征提取器提取的分子图和蛋白质序列特征。 作者引入了两个新的多模态融合模块:(i)口袋引导共同注意力(PGCA),它使用蛋白质口袋信息来指导对药物特征的注意机制;(ii)配对多模态注意力(PMMA),它使药物和蛋白质特征之间的有效跨模态相互作用成为可能。这些模块一起工作以增强模型捕捉复杂药物-蛋白质相互作用的能力。此外,对比化合物-蛋白质预训练(2C2P)模块通过调整模式和条件之间的特征,增强了模型对现实世界场景的泛化。 实验证明了DrugLAMP的性能超越了现有方法。
如图1所示,以药物-靶点对为输入,DrugLAMP的总体框架如图1a所示。首先,作者利用图卷积网络(GCN)、1D卷积神经网络和两个PLM对输入分子图和目标蛋白序列进行编码。然后,使用编码的蛋白质口袋嵌入,作者通过图1b中的共同注意机制PGCA筛选提取的分子特征输出。随后,DrugLAMP通过图1c所示的PMMA模块进行多模态融合。PMMA模块输出一个联合特征,该特征结合了多模态相互作用及其各自的特征,然后由随后的多层感知器将其转换为预测的药物-靶点相互作用分数。为了增强DrugLAMP在真实药物发现场景中准确预测DTI的稳健性,作者引入了一个称为2C2P模块的额外组件(图1d)。除了跨模态对比学习外,该模块还集成了药物和蛋白质的自监督学习技术。前者保证了不同编码方法(特征提取器和PLM)之间特征空间的一致性,从而通过无标签预训练增强了模型的泛化能力。后者将药物和蛋白质之间的关系分为锚定样本、阳性样本和阴性样本,有效地分离了不相互作用的子样本,同时最大限度地聚集了已知相互作用的阳性样本。
图1 DrugLAMP结构图
ESM-2是一种通用的蛋白质语言模型,对于ESM-2的输入序列,作者根据以下生物学事实反复填充输入序列:药物可能只结合约占10-20%的蛋白质上的特定位点并发挥作用。使用重复序列可以增强用药物序列计算每个蛋白质位点序列的潜力,模拟每种可能的结合模式,从而获得更好的匹配结果。作者首先在原蛋白序列上加上前后间隙零。然后,作者在固定的输入长度内尽可能多地重复这个填充序列。最后,作者在末尾附加零,以实现所有输入的均匀长度。这种方法增加了捕获实际结合位点的可能性,并提供了更全面的蛋白质结构视图。
由于药物通常与蛋白质序列的特定片段结合形成“蛋白质口袋”。为了充分利用这种先验知识,作者进行口袋操作,在序列的连续片段上标记,包含来自ESM-2的嵌入。该过程包括将蛋白质序列划分为每个9个氨基酸的重叠片段(基于典型的结合口袋大小),使用ESM-2提取每个片段的特征,然后对这些片段特征进行平均操作,以获得每个口袋的单个向量表示。
蛋白质特征提取器包括三层1D卷积层,将蛋白质序列转换为潜在特征空间内的矩阵表示。所得矩阵的每一行表示氨基酸的特征。根据词嵌入的概念,作者最初创建了一个查找表,其中所有类型的氨基酸作为键。通过引用这个查找表,每个重复的蛋白质序列可以初始化为相应的特征矩阵,输入到由卷积层组成的一维蛋白质特征提取器中,提取蛋白质的局部亚结构模式。通过逐渐增大卷积核,特征提取器可以学习到蛋白质的多尺度局部片段特征。之后进行口袋过程,1D卷积将蛋白质序列视为重叠的多聚氨基酸序列,以分层的方式捕获由3-、6-和9-聚片段组成的残基水平特征。
ChemBERTa-2是基于SMILES的PLM。 它使用了来自PubChem的多达7700万个药物分子,并通过自监督学习训练构建了一个适合化学分子机器学习的基本模型。为了获得药物分子的嵌入,作者利用ChemBERTa-2,它基于药物的SMILES序列对其进行编码。为了确保药物长度的一致性,作者修剪了过长的药物,并用零填充了不够长的分子。这就产生了经过修剪的输入药物SMILES,和适合批量训练的药物化合物的特征来进行变换。
对于药物特征提取器,为了有效地利用药物原子之间的连接特性,作者对修剪后的SMILES进行了变换,转化为相应的二维分子图,初始化了其中的每个原子节点。每个原子分配一个由整数组成的向量,代表来自8个领域的不同信息:原子类型、原子度、隐式氢原子数、总氢原子数、形式电子数、自由基电子数、原子杂化和芳香性。为了确保不同分子图大小的一致性,作者为小于规定大小的分子构建了用0填充的虚拟节点,从而得到节点特征矩阵。对每个图应用一个线性变换 ,将节点特征矩阵内的整数特征转换为实连续值,变换后的矩阵作为药物特征提取器的输入。
药物特征提取器由三层GCN组成,有效地适应了图中药物的结构信息⁠。GCN是一个将卷积运算扩展到图数据结构的神经网络。具体来说,GCN首先对邻域内所有原子的特征向量进行聚类运算,得到“消息”,然后更新原子特征。邻域是由原子参与的化学键来定义的。提取器的三层GCN结构使DrugLAMP能够捕获不同尺度的分子亚结构信息。
由于蛋白质序列和药物SMILES数据之间的数据异质性,现有的DTI方法往往无法捕获药物-蛋白质相互作用的生物学细节。这些方法通常依赖于简单的连接或融合后技术。为了解决这一限制,作者提出了一种更复杂的特征聚合策略,直接模拟成对药物-蛋白质标记级特征之间的相互作用,而不管这些特征是来自预训练模型还是特征提取器。模拟作为视觉问答问题中关联图像和文本嵌入的标准注意力机制,作者设计了PGCA,如图1b所示。由于蛋白质的结合口袋在体积尺度上远大于药物分子,PGCA利用蛋白质的口袋嵌入来引导药物分子特征的聚集,是一种粗糙的聚类口袋引导药物特征嵌入。作者假设使用相同方法获得的特征可能具有相似的特征。因此,融合使用相同方法获得的药物-蛋白质对的特征可以更好地捕获药物与蛋白质之间的匹配信息。
PGCA模块使用蛋白质口袋信息来指导药物特征的注意机制。 它首先根据蛋白质口袋嵌入和药物原子嵌入之间的相似性计算注意力权重。然后使用这些权重来创建药物原子特征的加权和,有效地突出药物分子中与特定蛋白质口袋相互作用最相关的部分。在PGCA过程中,作者基于特征提取方法进行特征融合。为了使模型专注于更有价值的信息,作者应用了多头注意力。
如图1c所示,PMMA模块方法是一个多模态注意力融合模块,融合药物-蛋白对比对后的混合特征。为了考虑预训练模型表示的一般性质和特征提取器的特定特征,使用注意力机制来加权两者的特征表示,特别是强调训练数据中药物或蛋白质的浅表示之间的差异。由于假设使用不同方法获得的特征可能有其独特的优势,因此作者采用更克制的融合方法,即在保持不同方法获得的特征的唯一性时,扩展学习空间,通过注意力机制获得最终特征,对两种不同PLM得到的特征进行了对称计算,将PLM的泛化能力与提取器的特异性结合起来,从而产生最终的特征集。
如图1d所示,2C2P模块通过多尺度对比学习增强了DrugLAMP的泛化能力。该模块利用自监督学习技术从蛋白质序列和药物化合物中捕获有意义的表示,同时跨模式对齐这些表示。结合对比学习的基本原理有三个方面:(i)它可以从未标记的数据中学习,这在标记数据稀缺的药物发现中特别有价值;(ii)它有助于区分相互作用和非相互作用的药物-蛋白质对;(iii)它鼓励学习对不相关变换不变的表示,提高模型的鲁棒性和泛化。
作者将DrugLAMP与一些具有代表性的方法进行了比较。表1中,括号中的数分别表示ROC曲线和PR曲线下的面积,越大越好。 DrugLAMP在三个数据集上都超越了现有方法,完整的DrugLAMP比去除2C2P的DrugLAMP表现更好。
表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。作者对DrugLAMP的各种模块和多模态范式在Human数据集上进行了消融研究,证实了它们对模型出色性能的贡献,详见表2。作者将DrugLAMP与6种消融模型进行比较。首先,作者研究了一个排除对比损失的消融模型(消融I (w/o 2C2P))。随后,作者开发了消融II (w/o PGCA)来说明口袋结构信息的融合使得模型性能增强。此外,作者调整了多模态输入以去除PLM,并在使用相同的特征提取器的同时引入了消融III (w/o PLM)。作者还试图消除特征提取器作为消融IV (w/o FE)的一部分。此外,作者进行了消融V (w/o repeat)来说明重复蛋白质序列的重要性,以及消融VI (w/o PMMA)来反映不同提取方法融合特征对模型性能的贡献。
表2 消融实验
作者还进行了案例分析。如图2所示,3ODU是一种描述CXCR4趋化因子受体(G蛋白偶联)与小分子拮抗剂IT1t复合物的结构,在癌症治疗中起特定作用。对于IT1t,两个环己烷环紧密地占据小的子口袋(图2d),与CXCR4建立接触(图2a)。IT1t的原子22-24和15-17在药物注意力分析中具有较高的权重,表明它们暴露于溶剂中(图2b)。原子26和原子5也受到了模型强烈的关注(图2c),这与实际的相互作用是一致的(图2a)。
8FQX是由CA II(最普遍的碳酸酐酶异构体)和配体3g组成的结构。CA的失调与包括癌症在内的许多疾病有关,刺激了CA抑制剂(例如3g)的发展,这是一个广泛研究的课题。对于3g,原子14、16、19和20暴露于配体(图2e),并且已经由DrugLAMP预测(图2f)。3g还通过原子18与H64共享一个氢键,这是模型捕获的一个关键相互作用点(图2gh)。






请到「今天看啥」查看全文