专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
银行家杂志  ·  再论信托公司的业务本源 ·  2 天前  
银行家杂志  ·  中央一号文件释放了哪些新信号? ·  3 天前  
晓央就业  ·  晓央说|又到了银行集中校招的时候... ·  昨天  
晓央就业  ·  晓央说|又到了银行集中校招的时候... ·  昨天  
中国人民银行  ·  中国人民银行征信中心博士后科研工作站2025 ... ·  3 天前  
51好读  ›  专栏  ›  智药邦

Nat Mach Intell|从虚拟筛选角度评估AI驱动的分子对接方法

智药邦  · 公众号  ·  · 2025-02-20 08:00

正文

2025年2月13日,来自浙江大学侯廷军教授和康玉副教授团队联合在Nature Machine Intelligence上发表论文Benchmarking AI-powered docking methods from the perspective of virtual screening。

该论文构建了一个全面的虚拟筛选(VS)数据集VSDS-vd,并系统评估了多种AI驱动的分子对接方法和传统的基于物理原理的对接方法在VS中的表现 。评估结果显示,尽管AI对接方法在生成对接构象的物理合理性方面存在不足,特别是蛋白-配体间易出现立体冲突,且现有配体后处理方法未能有效缓解这一问题,但AI对接方法在VS中仍然展现出巨大潜力。基于评估结果,作者创造性地提出了一种层级式VS策略,该策略在筛选速度和精度两方面实现了动态平衡,为大规模药物筛选应用提供了极具前景的新途径。

研究背景

分子对接是研究蛋白质-配体相互作用的常用计算技术,在基于结构的药物设计与发现中发挥着重要作用。该技术通常以实验测定或计算建模的蛋白质三维结构为起点来预测配体在蛋白口袋中的结合构象,并通过预定义的打分函数来评估二者的结合强度,进而被广泛用于从化合物库中快速识别潜在候选药物。同时,分子对接在阐明配体结合模式、探索靶标功能及优化配体结构等方面也展现出独特优势。

传统基于物理的对接方法(如Glide、LeDock、rDock和Surflex)通常采用搜索算法探索配体构象空间,并通过经验打分函数对候选构象进行排序。然而,现有搜索算法受限于搜索步数,难以实现构象空间的完全收敛;而基于简单加和假设的经验打分函数也往往可靠性有限。近年来,AI技术的快速发展为突破传统对接程序的设计原理提供了新思路:一方面,基于深度学习的打分函数(DLSFs)可利用算法强大的非线性拟合能力捕捉配体-靶标间的本质作用规律,在部分回顾性测试中已展现出显著优势;另一方面,新型深度学习对接方法(DLDTs)无需对构象进行深度采样,并已在多个公共基准测试的重对接实验中取得理想效果。但需注意的是,现有DLDTs普遍忽视对接构象的物理合理性,其在实际VS中的应用潜力尚未得到充分验证,且其性能对训练数据的依赖性也亟待系统评估。

选择合适的对接与打分方法是提升先导化合物发现效率的关键环节。为此,亟需建立科学的评估体系以指导高精度、高效率虚拟筛选策略的设计。这需要重点解决以下三方面问题:首先,现有研究多采用对接构象与共晶配体构象的均方根偏差(RMSD)作为DLDTs性能评价指标,缺乏对构象物理合理性的深入分析,而后者对揭示算法内在偏差、推动对接流程优化具有重要价值;其次,多数DLDTs聚焦于对接精度提升,忽视了在VS任务中的实际效果,部分工作虽评估了富集能力,但局限于使用人工构建的诱饵数据集(如DUD-E、DEKOIS 2.0),其固有偏差可能影响结论可靠性;最后,随着化合物库规模持续增长,如何平衡VS效率与精度也是实际应用中亟需考虑的关键因素,而整合不同对接工具优势构建协同筛选策略或为可行解决方案。

针对上述问题,该研究构建了一个全新的VS评估数据集VSDS-vd。 该数据集包含三个子集,分别为TrueDecoy set (含实验验证活性/诱饵分子) 、RandomDecoy set (诱饵分子随机采样于商业化合物库) 和MassiveDecoy set 诱饵分子规模达百万级),以从不同维度评估对接方法的VS性能。基于该数据集,作者对四种传统对接方法(Glide、Surflex、rDock、LeDock)和四种AI驱动的方法(CarsiDock、KarmaDock、DiffDock、FlexPose)展开了系统评估:首先通过TrueDecoy set的晶体结构进行重对接实验,在考察对接精度的同时评估对接构象的物理合理性;随后结合先进重打分方法(RTMScore与EquiScore)构建了多套筛选方案,在TrueDecoy set与RandomDecoy set上进行了全面性能测试;最终基于评估结果提出融合不同AI方法优势的层级式筛选策略,并利用MassiveDecoy set验证其实际应用潜力。本研究整体框架如图1所示。

图1|研究整体框架与关键模块。(a)研究工作总体流程。(b)VSDS-vd数据集构建过程。(c,d)重对接实验(c)与VS实验(d)示意图。(e)大规模VS策略设计思路。

VSDS-vd数据集概述

一个理想的VS基准数据集应确保所有靶标经过充分研究,并具有明确的实验结合数据,同时包含适当比例的活性与非活性化合物。为此,作者首先构建了TrueDecoy set。该数据集的靶标信息来自Uniprot,配体与结合数据取自BindingDB、PubChem和ChEMBL,晶体结构来源于PDB数据库。作者从BindingDB中筛选了所有人源靶标以确保多样性,并以1 μM为活性阈值区分活性与非活性化合物。鉴于实际VS场景中非活性化合物占主导地位,作者保留了所有非活性化合物,并通过结构聚类筛选活性化合物,使活性与非活性化合物的比例约为1:40。如图2a所示,TrueDecoy set最终包含147个靶标,涵盖多种蛋白家族,包括39种激酶、26种其他酶、23种GPCR、22种肽酶、11种核受体等。此外,为增强数据集的区分能力,作者还从TrueDecoy set中衍生出TrueDecoygap set(活性与非活性化合物活性差异显著)。在该子集的所有靶标中,最弱活性化合物的活性均比最强非活性化合物高1000倍。TrueDecoygap set包含71个靶标,涵盖25种激酶、16种GPCR、9种肽酶、8种其他酶、5种核受体等。

图2|TrueDecoy set与RandomDecoy set的数据分布。(a)TrueDecoy set与(b)RandomDecoy set的靶标类型分布。(c)TrueDecoy set与(d)RandomDecoy set的活性化合物数量分布。


鉴于低于预设活性阈值的化合物并非完全无活性,仍有被优化为类药分子的潜力,作者进一步构建了RandomDecoy set,通过从商业化合物库中随机选择诱饵化合物,模拟更真实的VS场景。RandomDecoy set包含68个靶标,其活性分子直接取自TrueDecoy set,诱饵分子则从ChemDiv数据库中按1:100比例随机选择,并重复三次。靶标仍涵盖多种蛋白家族,包括20种激酶、13种肽酶、11种其他酶、9种GPCR、8种核受体等(图2b)。此外,作者还构建了MassiveDecoy set,通过从商业化合物库Topscience refine集中提取所有化合物作为诱饵,模拟实际大规模VS场景。

不同工具在TrueDecoy set上的对接能力评估

如图3a所示,CarsiDock的整体性能优于其他方法,但当使用特别低的RMSD阈值(如小于1 Å)来定义成功预测时,基于物理的方法LeDock明显优于其他方法。当将测试集中重复靶标条目删除后(图3b),CarsiDock和LeDock仍在不同的RMSD阈值下保持领先。在常规的2Å阈值下(图3c),CarsiDock取得了最高的成功率86.4%,其次是KarmaDock的76.2%;当排除重复结构时(图3d),CarsiDock和KarmaDock的成功率均下降,但CarsiDock仍保持领先,而KarmaDock则不如LeDock和Glide。当考虑物理合理性时,基于物理的方法如Glide、LeDock和 Surflex的表现优于或可与表现最优的深度学习方法CarsiDock相媲美;当删除重复靶标条目后,物理方法的性能相对稳定,而深度学习方法的性能显著下降,进一步拉大了两类对接方法之间的差距。作者进一步探讨了对接复合物中物理不合理性的来源,发现基于物理的对接方法生成的结合构象几乎都能通过所有测试(>90%),而深度学习方法之间则存在显著差异。具体而言,CarsiDock和DiffDock在维持分子内有效性方面表现出色(>90%),但对分子间冲突关注较少。但较为遗憾的是,FlexPose和KarmaDock在结构合理性的几乎所有指标上表现不佳(<80%)。

图3|TrueDecoy数据集上的重对接结果。不同对接方法在TrueDecoy set上的重对接实验性能,其中包括所有PDB条目(a、c、e)或排除在PDBbind中重复的PDB条目(b、d、f)。(a,b)RMSD值的累积分布。(c,d)RMSD阈值设为2.0Å时的Top-1成功率。(e,f)各方法所预测构象在不同物理合理性指标中的合格率。

TrueDecoy set和TrueDecoygap set上的VS结果

作者随后在TrueDecoy set上评估了多种VS策略的筛选能力。如表1所示,与此前在DUD-E和DEKOIS 2.0上报告的结果相比,不同方法在该数据集中富集因子(EFs)显著降低,突显了该数据集的内在挑战性。在所有筛选方法中,Glide尤其是在用 RTMScore进行重打分时表现最佳,其EF_0.5%、EF_1%和EF_5%的平均值和中位数分别为6.87和2.06、5.69和3.36、3.30和2.36。CarsiDock排名第二,相应的指标为5.11和0、4.85和1.74、3.17和2.20。对于物理对接方法,使用RTMScore进行重打分通常能得到比原始打分方法更好的结果。

为进一步增强基准测试的区分能力,作者还在TrueDecoygap set上测试了这些方法(表1),该衍生数据集在活性与诱饵化合物之间具有更大的生物活性差距。如预期的那样,这里的指标普遍高于TrueDecoy set,但两个数据集体现出相似的性能趋势。


表1.不同虚筛策略在TrueDecoy数据集和TrueDecoygap数据集上的表现

RandomDecoy set上的VS结果

作者还在RandomDecoy set上评估了这些方法的筛选能力。如图4a-d所示,无论活性与诱饵的比例是1:100还是1:300,这些方法在该数据集上的EF排名保持一致:

CarsiDock>KarmaDock>Glide+RTMScore>Glide>Glide+EquiScore。

其中,CarsiDock在正负样本比例分别为1:100和1:300的条件下的EF_0.5%、EF_1和EF_5%富集因子分别为59.3、43.5和12.6,以及81.0、47.6和12.8;当用RTMScore对Glide进行重打分时,其在两种比例下的EF平均值分别从40.8、28.8、8.8提升至51.0、34.4、9.9,以及从51.7、30.4、8.9提升至65.4、37.1、10.0。这些结果突显了基于深度学习的对接和打分方法在实际药物筛选过程中的潜力。

图4|RandomDecoy set和MassiveDecoy set上的VS结果。(a-d)各种VS策略在RandomDecoy set上的EF_0.5%、EF_1%和EF_5%的分布(a,b)和均值(c,d),活性与诱饵分子的比例分别设置为1:100 (a, c)和1:300(b,d)。(e)整合KarmaDock和CarsiDock的层级式筛选策略的整体工作流程。(f-h) KarmaDock和KarmaDock+CarsiDock在前50(f)、100(g)和200(h)个化合物中富集的活性分子数目。

层级式筛选策略

根据上述评测结果,作者进一步提出了一种层级式筛选策略,即首先使用高效的KarmaDock进行初步筛选,随后使用精度更高的CarsiDock对排名靠前的分子进行进一步对接与打分。作者在MassiveDecoy set上评估了该策略的筛选能力,并以单独使用KarmaDock作为对照。如图4f-h所示,尽管不同策略在不同靶标上显示出一定的靶标特异性,层级式筛选策略依然表现出相比于KarmaDock的整体性能优势。当以排名前50的活性分子数目为指标时,在所有8个受测靶标中,该策略可在6个靶标中表现更优;当将指标放宽为排名前200的活性分子数目时,KarmaDock甚至在三个靶标(Uniprot条目:P06276、P29274和P45452)上未能富集得到任何活性分子,而层级式筛选策略则可相应富集得到12、38和6个活性分子。对于Uniprot条目为O00329的靶标,层级式筛选策略的优势最为显著,排名前50、100、200的活性分子数目分别从23、31和44增加至39、71和120。这些结果也表明,层级式VS策略为从大规模化合物库中高效准确地筛选活性分子提供了新思路。







请到「今天看啥」查看全文