摘要:
人工智能(AI)正在通过提高精确性、缩短时间线和降低成本以及实现 AI 驱动的计算机辅助药物设计来革新药物发现。本综述聚焦于用于从头药物设计的深度生成模型(DGMs)的最新进展,探讨了多种算法及其深远影响。它对这些技术中错综复杂的挑战进行了批判性分析,并提出了释放其全部潜力的策略。它展示了在 AI 辅助下推进药物进入临床试验的成功和失败案例研究。最后,
它概述了一个面向未来的计划,以优化从头药物设计中的 DGMs,从而促进更快且更具成本效益的药物开发。
1.引言
药物研发成本高、耗时长,开发一种新药通常要花超 28 亿美元,耗时超 12 年。为加快进程、控制成本,得找高效办法。高通量筛选(HTS)能快速评估大量化合物,助力药物识别。虚拟筛选(VS)能找出有潜力的活性分子,筛掉不好的结构。随着计算能力提升,VS 发展迅速,主要有基于结构和基于配体两种筛选策略。基于结构的筛选靠已知靶点蛋白结构,运用分子对接、分子动力学模拟等技术评估受体 - 配体相互作用;基于配体的筛选依赖已确认的活性化合物,采用药效团建模等方法优化已知化合物。
近些年,人工智能(AI)和计算能力发展迅速,机器学习(ML)和深度学习(DL)技术被应用到药物发现的 VS 流程中。药物研发数据多,ML 和 DL 擅长处理大数据、找隐藏规律,能高效预测,很适合构建 HTS 和 VS 流程,重塑了制药研发。2017 年起,很多制药公司与 AI 初创公司、学者合作,或开展内部 AI 研发项目。AI 技术应用广泛,从训练深度神经网络预测生物活性化合物,到生成新的小分子药物先导化合物,覆盖生物医学和药物研发各领域。
DL 生成式建模发展势头很猛,为药物研发带来新机遇。深度生成模型(DGMs)很厉害,能创造新分子。比如为化学设计的生成式预训练变换器(GPT),属于生成化学范畴,能创建有特定属性的新分子。如今,药物发现与生成式建模结合,深入到自动从头分子生成领域。这种方法完全靠数据驱动,不依赖预定义规则。通过学习大量分子结构数据,掌握化合物设计的复杂规则,理论上能探索整个药物类空间,生成有理想活性的新结构。比如,用 DGMs 发现纤维化相关激酶靶点抑制剂,在计算机上仅用 21 天就完成了。
DGMs 能设计新分子结构,筛选生物数据集找疾病靶点,加快药物研发早期进程。像变分自编码器(VAEs)和生成对抗网络(GANs)这类 DGMs,能生成有特定属性的分子结构。AI 优化技术还能完善这些结构,提升药效、降低毒性、改善药代动力学。DL 能揭示基因、蛋白质和疾病的复杂关系,简化药物开发,提高成功率,节省时间和成本。生成式 AI 通过分析遗传和临床数据,助力个性化医疗,改善治疗效果。不过,DGMs 在药物化学中的应用才刚起步,在从头分子生成的计算探索方面还有很大差距,需要深入研究。实际应用 DGMs 时,要全面评估其优缺点,包括生成分子结构的有效性、可扩展性、泛化能力,以及结果解释和可靠性等。同时,还要考虑实施和验证所需的计算资源和专业知识。
本文主要讲了 DGMs 在从头药物设计中的最新进展,介绍了相关算法及其影响,还分析了面临的挑战和局限,给出了克服困难、发挥潜力的建议。此外,讨论了 AI 与制药公司的合作,列举了成功和失败案例,展示 AI 对药物研发的变革作用。最后,展望了优化 DGMs 的未来计划,有望加快药物研发、降低成本,开发更多有效疗法。
2.从头分子设计的深度生成架构
目前,DGMs主要分为两类,这取决于结构是使用简化分子输入线性方程系统(SMILES)语言描述,还是依赖于分子图。最初,SMILES在分子生成中发挥了重要作用,其建模过程涉及将其转换为连续向量进行优化,然后解码回SMILES字符串。
这种方法假设潜在分子空间中的优化过程比离散分子空间中的优化过程更加平滑,从而简化了优化过程。然而,生成的潜在空间的平滑性存在局限性,这促使研究人员超越SMILES,开发用于高效处理分子图的编码和解码算法。这些新方法结合了多分辨率的分子捕获,并整合了三维信息,即使在非平滑的隐藏空间中,也能产生更稳健和多样化的输出。尽管如此,基于分子图的算法仍处于相对早期的发展阶段。
与基于SMILES的DGM相比,图模型模仿人类绘制结构的方式,逐个原子和键地构建分子结构。这种方法导致每一步的搜索空间显著增大。此外,在图模型中,每个分子结构必须在训练过程中被分解为一系列子结构,从而导致训练集中数据量大幅增加。这两个因素导致图模型的训练速度较慢。最近,新型开源框架REINVENT 4利用循环神经网络(RNN)和Transformer架构进行分子生成,在基于SMILES的编码和解码任务中表现出色。然而,SMILES和类似的分子线性表示法可能会产生无效序列,需要遵循特定的语法和化学规则。为了解决这一问题,O’Boyle等人引入了DeepSMILES,通过仅使用闭合括号来解决括号不平衡的问题。Krenn等人引入了Self-Referencing Embedded Strings(SELFIES),这是一种具有自引用递归函数的约束图的弹性序列表示法。尽管SELFIES确保了100%的有效性,但它受到所谓的“坍塌”限制。类似于语法错误校正(GEC)中的翻译模型,理论上可以纠正无效的SMILES序列。Zheng等人展示了这些模型在纠正短SMILES序列中的语法错误方面的适用性,并成功应用于其他基于SMILES的任务。图1总结了几种主要的DGM架构。RNN是用于理解人类语言的生成神经网络中的重要组成部分。它们在表示具有序列或时间特性的系统方面具有不可替代的价值,在诸如自动化计算机代码生成、句子构架和音乐创作等任务中表现出色。分子表示(例如SMILES)与人类语言基于相同的原理运行。因此,利用RNN通过序列表示生成分子似乎是合理的。在这个过程中,序列数据逐步输入到RNN中,每个输入都会影响后续的输出。图1a展示了RNN如何利用逻辑在DL驱动的从头设计中生成分子结构。长短期记忆(LSTM)和门控循环单元(GRU)与标准RNN不同,它们采用了门机制,能够在一个较长的序列步骤中保留关键输入信息。LSTM和GRU之间的选择可能取决于具体的应用。与GRU相比,LSTM单元具有更大的能力来保留更长序列的过去信息。然而,将额外的参数纳入LSTM模型可能会增加过拟合的风险。采用LSTM或GRU架构的RNN在使用SMILES格式从头生成小分子化合物方面表现出显著的潜力。
图 1.从头药物设计中常见类型的深度生成模型(DGMs)示例。a. 循环神经网络(RNN);b. 变分自编码器(VAE);c. 生成对抗网络(GAN);d. 图神经网络(GNN);e. 标准化流。
另一种在从头药物设计中用于学习数据表示的流行技术是自编码器(AE)的使用。AE由两个网络组成:一个编码器网络,训练用于将输入转换为低维潜在向量;以及一个解码器网络,将潜在向量映射回原始输入数据。基本的AE通过复制输入来构建潜在空间。为了应对原始AE中的过拟合和不连续性问题,变分自编码器(VAE)在潜在空间中采用了正则化技术。这种技术用概率分布替换了潜在空间中的单个点。VAE已被应用于分子生成,为从头药物设计引入了一种新方法。图1b展示了VAE结构在分子中的应用。该过程从分子输入(例如乙酸)开始,编码器网络生成均值和标准差向量。这些向量作为正态分布的参数,使得可以在潜在空间中采样一个向量(z)。这个潜在向量成为解码器网络的输入,从而生成分子表示(在这种情况下是羟基乙酸)。VAE训练损失包括两部分:第一部分确保原始输入与生成的输出相似(重构损失),第二部分鼓励结构相似的分子在潜在空间中聚集在一起。在图1b中,结构相似的羟基乙酸和草酸在潜在空间中距离较近,而结构不那么相似的γ-丁内酯则距离较远。经过训练后,可以省略编码器部分,通过从标准正态分布中采样不同的z向量来生成新的分子。
近年来,人们对获得VAE的解耦表示越来越感兴趣。主要目标是确保潜在向量中的每个潜在变量编码数据的一个独特且独立的特征或方面。在分子生成中有效实现解耦VAE可以实现仅通过调整与特定属性相关的潜在变量来修改特定的分子属性,而不改变其他特征。这种框架的多功能性在其在各种上下文中的采样和优化分子的应用中得到了体现,例如ChemVAE、GrammarVAE和SD-VAE。在后两者中,输入和输出阶段都加入了额外的处理,以在训练之前和采样过程中预处理和纠正SMILES的语法。
条件VAE(CVAE)是经典VAE的扩展,在编码过程中加入分子属性信息,这些信息可以在解码过程中被操纵。这种方法能够生成具有特定属性的类药物分子,例如所需的氢键供体和受体、分子量、logP和拓扑极性表面积(TPSA)。这种方法的另一个优点是能够在不改变整体分子属性的情况下控制个别属性。许多研究探索了CVAE在条件分子生成中的应用,使其成为从头分子设计和其他药物发现应用中的重要工具。例如,创建具有所需SMILES字符串的分子、利用Transformer进行条件分子生成以及生成具有特定指纹属性的分子。最近,Kotsias等人证明了分子属性约束可以作为辅助信息整合到基于RNN的DGM中,从而使生成的分子更有可能满足输入的约束。
半监督VAE(SSVAE)是生成分子的强大工具,当数据集中只有一部分被标记了属性时尤为有用。SSVAE将分子生成和属性预测结合到一个网络中,使其既高效又多功能。SSVAE架构利用三个双向RNN进行编码、解码和预测。在训练过程中,模型可以利用标记和未标记的分子,使其适用于现实世界中属性数据有限的应用。在应用于SMILES字符串生成时,SSVAE在生成具有更大化学多样性的分子方面表现出色,与仅依赖潜在空间中属性共同学习的模型生成的分子相比。
对抗自编码器(AAEs)是变分自编码器(VAEs)的替代方案,利用对抗训练来塑造潜在空间。在此框架中,编码器将其输入转换为潜在空间中的一个独特点。同时,部署了一个判别器网络,以区分从预定义统计分布中抽取的样本和编码器产生的编码点。本质上,编码器承担了生成器的双重角色,与判别器展开竞争互动,巧妙平衡最小化重构误差和智胜对抗成分之间的关系。
这种生成对抗网络(GANs)与自编码器(AEs)的结合充分发挥了两种框架的优势,为生成具有所需特性的新分子以及高效探索药物发现和设计中的分子空间提供了多种技术。AAEs已在使用SMILES和指纹表示法生成新分子方面表现出熟练能力。
与VAEs不同,GANs不依赖于明确的概率密度函数。相反,GANs采用对抗训练框架,包括一个生成器和一个判别器(图1c)。判别器训练一个分类模型,目标是最大化由生成器生成的合成分子的错误率,使其尽可能接近真实数据。生成器和判别器同时进行对抗性、零和博弈训练,直到判别器被骗,表明生成器网络正在生成可信的(即看似真实的)分子。GAN早期用于生成分子结构的应用包括ORGAN和ORGANIC算法。RANC和ATNC算法整合了GAN、强化学习(RL)和微分神经计算(DNC),这是一种高级版本的GRU网络,用于处理结构生成中的长期记忆。LatentGAN算法将AE与GAN算法结合起来进行分子设计。与ORGANIC模型直接使用SMILES作为GAN输入不同,AE生成的隐藏变量作为GAN的输入。结果表明,GANs有能力生成大量新结构,其中一些分子甚至具有新颖的骨架。在最近的一个应用中,GANs根据所需的基因表达特征进行了微调,从而能够生成具有与基因表达相关的特定属性的分子。这种创新方法为个性化医疗的未来应用带来了光明的前景。
图神经网络(GNNs)是卷积神经网络(CNNs)的扩展。CNNs专为处理具有规则结构的数据而设计,而GNNs在处理以图形式表示的数据方面表现出色,这些数据通常由一组被称为节点的顶点通过有向边连接而成。该方法涉及成对消息传递,网络节点通过与邻近节点交换信息来迭代更新它们的表示(图1d)。生物医学数据,如蛋白质-蛋白质相互作用、蛋白质-药物相互作用、药物-疾病相互作用和药物再利用数据,本质上是相互连接的,因此非常适合图表示。图还用于展示小分子药物,将原子表示为节点,化学键表示为边。
知识图谱展示了药物、不良反应、再利用药物及相关结果之间的复杂联系,有助于形成创新想法。这些模型的可训练性使它们能够在提供现有结构数据库时生成新的分子图。迁移学习(TL)的引入增加了复杂性的一层,使一个领域的专业知识能够转移到另一个领域以增强结果。在这个领域中,一个值得注意的策略是有条件的生成,它涉及将代表所需化学属性(如降低毒性或提高溶解度)的向量纳入生成过程的输入中。有条件生成的应用无缝扩展到各种深度生成模型(DGMs)。然而,这种技术的一个缺点在于数据分布和条件向量分布之间的相互依赖性,这给过程带来了不受欢迎的元素。与这种方法相关的一个问题是模型倾向于产生低新颖性分数。这种倾向是因为模型通常更注重条件向量而不是潜在向量,选择被视为更简单任务的解决方案。VAE和GAN虽然服务于不同的目的,但它们有一个共同点,即不直接表示实际的概率密度函数。VAE通过优化似然函数的下界来微妙地增强数据的对数似然。相反,GAN采取了不同的路线,通过绕过分布的显式建模,采用对抗方法来区分有效和合成分子。
深度生成模型(DGMs)的最新进展见证了基于深度流的方法的兴起,其特点是能够明确定义给定数据集中的密度(图1e)。归一化流方法是一种简单而强大的技术,擅长通过双射(即可逆)变换和可微函数系列,将复杂数据的密度转换为更易于管理的形式。一旦数据经过这种转换到更简单的分布,就可以应用高斯混合建模和最大化对数似然等技术,这在分类问题中特别有益。与GANs和VAEs相比,归一化流模型具有多个优势。值得注意的是,它们不需要在输出中添加噪声,从而可以使用更稳健的局部方差模型。此外,基于流的模型的训练过程比用于训练GANs的训练过程更稳定,因为后者需要仔细调整生成器和判别器的超参数。在收敛特性方面,归一化流优于GANs和VAEs。归一化流模型已被用于通过构建分子的邻接矩阵和特征矩阵来创建分子图。自回归版本允许在生成过程中逐步构建分子图,增强生成分子的有效性检查和质量指标。使用属性预测器的梯度上升(第61页)或强化学习来指导分子生成是替代方法。图流-VAE结合了VAE编码器和基于流的解码器,在分子生成中发挥了两种方法的优势。
基于扩散的模型也引起了相当大的关注。与流不同,扩散过程消除了对可逆变换的需求。这些模型分为两个阶段运行:在前向过程中,数据样本在马尔可夫链设置中经历随机噪声注入,最终收敛到高斯分布(图2a)。值得注意的是,前向过程不涉及任何可训练参数。在后向过程中,目标是使用深度网络执行的去噪步骤,将高斯分布中的样本转换为类似数据的样本。等变扩散模型(EDM)在分类原子类型和连续原子坐标上运行,通过等变于欧几里得变换的去噪网络生成3D分子。然而,扩散过程在训练和采样过程中存在计算强度和时间限制。
Transformer在DGMs中被广泛使用,如扩散模型,擅长通过学习数据的底层概率分布来生成高质量样本。利用自注意力机制,Transformer能够捕捉长距离依赖和上下文信息。这种机制根据每个输入序列元素的相对位置对其进行加权,类似于原子或邻近原子的位置如何影响结构的分子属性。Transformer由带有归一化和密集层的“块”中的注意力层组成,包含数十亿可训练参数(图2b)。通过无监督训练,学习到的嵌入占据了一个有组织的潜在空间,促进了类似分子的聚类。AEs和Transformer将分子编码到这个潜在空间,并将向量解码回小分子,有助于小分子设计和药物发现的生成探索。最近,Transformer在开发DGMs中发挥了关键作用。杨等人构建了一个基于Transformer的模型,用于探索新的BRAF抑制剂,同时采用了强化学习和迁移学习。生成预训练Transformer(GPTs)通常用于从头分子设计。李等人将Transformer与目标强化GANs结合起来,创建具有所需属性的分子。廖等人开发了Sc2Mol,这是一种混合Transformer-VAE模型,取得了有希望的结果。这些基于Transformer的方法有一个共同目标,即产生基于字符串的结构,突出了它们在分子生成任务中的多功能性和有效性。
在药物发现中用于生成深度学习的其他常用技术包括迁移学习和强化学习。迁移学习基于掌握一项任务可以增强后续相关任务的学习这一前提。在特定学习任务的训练数据稀缺但更一般任务的训练数据丰富的低数据环境中,这种技术特别有价值。在药物发现的背景下,可以在包含治疗性分子的广泛、一般化数据集上对模型进行预训练。随后,在包含具有特定活性的分子的较小数据集上进行微调。这个两步过程使得能够从潜在空间中提取具有所需属性的分子(图2c)。可以采用各种优化技术来增强模型的有效性,包括强化学习,稀疏高斯过程建模属性/贝叶斯优化,条件潜在(属性)空间采样,遗传算法,粒子群优化,和生成地形图。
图 2.用于从头药物设计的常见深度生成模型(DGMs)。a. 基于扩散的模型在正向过程(图中的弯曲箭头)中引入噪声,使数据与高斯分布对齐。反向过程(直线箭头)从噪声分布采样生成的数据中生成样本。b. 基于 Transformer 的模型过程从输入“句子开始”(SOS)到解码器开始,生成后续标记,直到生成“句子结束”(EOS)输出,从而生成一个分子。c. 从头分子设计工作流程整合了迁移学习(TL),以解决为特定受体生成小分子时的数据稀缺问题。步骤包括:(i) 预训练的 DGM 实施;(ii) 迁移学习用于获取化合物特征,结合强化学习(RL)进行属性细化;以及 (iii) 应用过滤器进行分子选择。
RL 代表一种 ML 范式,使基于 AI 的系统能够通过迭代最大化群体回报来动态适应变化的环境,而群体回报是通过个体行动的反馈获得的。在 RL 中,采用两种主要方法来推导策略:基于策略的 RL 和基于价值的 RL。基于价值的 RL 的目标是学习一个价值函数,该函数表征从给定条件预测的回报。一旦理解了这个函数,就会建立一个策略来优化特定行动所产生的预测价值。相比之下,基于策略的 RL 旨在直接获取策略。已提出了几种基于 RL 的方法用于从头药物设计。这些方法包括采用两个 RNN 模型并采用探索/利用策略以确保更大化学多样性的基于 SMILES 的方法,演员 - 评论家方法,REINFORCE 算法和 ORGAN 模型。此外,提供了一种更简单的方式来描绘分子并进行中间有效性检查的基于图的表示,包括 REINVENT 算法,利用近端策略优化算法的图卷积策略网络 (GCPN),和分子深度 Q - 网络 (MolDQN)。此外,RL 还被应用于通过基于反应的生成来提高生成分子的合成可及性。在自编码器中,一个带有额外损失项和 “奖励网络” 的基于 RL 的解码器确保了解码图的有效性。使用 GNN 编码器和基于 MolDQN 的解码器的 RL - VAE 方法是图解码中 RL 的一个例子。关于架构之间差异的简要见解,表 1 对比了多种技术。
上述各种 DGM 已成为从头分子生成中基于规则的方法的有前途的替代品,但它们带来了重大挑战。一个主要挑战来自于 DGM 可能提出过于复杂甚至无法合成的分子的可能性。因此,在进入评估和优化阶段之前,验证生成分子的可合成性是至关重要的。在这方面,还必须指出,AI 生成分子的可合成性还取决于其他因素,例如模型的训练数据和用于生成分子的 DGM 类型。模型类型很重要,因为例如 RNN 学习基于序列数据分析来生成分子,就像 AI 的自然语言处理 (NLP) 部分一样。另一方面,GAN 涉及对抗训练,这为根据建模输入数据的底层过程生成不同类型的分子提供了充足的机会。正如 Segler 等人正确提到的,深度学习并不是一种万能工具,而且在化学中,仅仅近似生成分子是不够的,因为化学需要精确性。Segler 等人提出的模型可以重新发现关键分子,这表明 DGM 可以补充现有的药物发现方法。尽管最近的进展证明了探索新方法的合理性,但 DGM 的最终成功取决于通过湿实验室结果确定其有效性。此外,在 GAN 中尤其遇到的一个显著缺点是模式崩溃。当 GAN 生成的图像或化合物结构种类很少,并且以众多重复为特征时,就会发生模式崩溃。这种重复问题的原因在于生成器组件努力理解丰富的特征表示。本质上,在学习过程中,GAN 可能会无意中将相同的输出与各种输入联系起来,从而导致生成结果的多样性有限。在 RNN 中也观察到类似的模式崩溃,因为它们可能会收敛到一种分子,因此引入了一个桶或多样性过滤器来避免这个问题。即使 RL 方法也容易受到模式崩溃的影响,因为它们通常会生成单一解决方案或一组类似的解决方案。
3.DGM 在从头药物设计中的成功应用
由于 DGM,从头药物设计正在经历一场深刻的变革。这些模型在设计具有理想特性(如对特定蛋白质靶标具有强大结合亲和力)的化合物方面发挥着关键作用。它们通过微调分子特性(如溶解度)来增强药物特性,从而解决了设计新型药物候选物的长期挑战。除了生成结构外,DGM 的用途还扩展到预测生成分子的合成路线,并将概念设计阶段与合成的实际方面联系起来。在多药理学,药物再利用(探索现有药物的新用途)和多靶标药物设计等领域取得了显著的贡献。值得注意的是,这些模型有助于在药物开发过程中早期识别潜在的副作用。此外,DGM 还有助于揭示药物作用的分子机制,为高通量筛选自动生成分子,并预测各种分子特性,包括 ADMET(吸收,分布,代谢,排泄和毒性)特性。本质上,DGM 不仅迅速推进了新型药物的发现,还丰富了我们对药物 - 靶标相互作用的理解,并优化了整个药物开发过程的效率。
在 SARS - CoV - 2 大流行期间,许多研究人员探索了使用 DGM 设计分子,这促使了基于深度学习的从头药物设计取得了重大进展。在短时间内提出了多种方法。例如,Bung 等人使用迁移学习(TL)改进了堆叠 RNN 模型。该模型最初在来自 ChEMBL 的 150 多万个分子上进行训练,以识别 SARS - CoV - 2 蛋白酶的潜在配体。然后,该模型进一步针对蛋白酶用 2500 种化合物进行微调。使用强化学习(RL)作为条件模型,作者优化了药物相似性(QED),分子量,合成可及性评分(SA 评分)和 logP 的定量估计。在对生成的化合物进行对接模拟测试后,该团队确定了 31 种有希望的先导化合物。在另一种方法中,一个研究团队利用 Rosalind 和基于 SMILES 的内部模型来设计针对 SARS - CoV - 2 主要蛋白酶 Mpro 的化合物。在筛选结合亲和力,QED,分子量,结构警报和毒性后,该团队分享了 40 种化合物。Chenthamarakshan 等人在基于 SMILES 的虚拟筛选(VS)环境中使用条件潜在属性空间采样(CLaSS)来设计优先结合三种关键 SARS - CoV - 2 靶标蛋白的化合物。通过筛选逆合成预测,毒性和基于对接的靶标结合亲和力,确定了 3500 种潜在的先导化合物。Zhavoronkov 等人使用 28 种具有不同分子表示的模型生成了针对 SARS - CoV - 2 主要蛋白酶 Mpro 的化合物。Born 等人适应了 PaccMannRL 框架,使用 SELFIES 而不是 SMILES 来生成针对 SARS - CoV - 2 的化合物。总之,这里讨论的基于 AI 的虚拟筛选方法与经典的实验和基于对接的筛选方法有所不同。它们通常将分子编码为向量,并建立与其属性的映射关系,从而能够快速搜索包含 106–109 个分子的大型分子库,而如果使用传统方法,这将非常耗时。这种能力解决了诸如对抗 SARS - CoV - 2 等新出现的病毒威胁等紧急挑战。
研究人员利用在大量SMILES字符串上训练的RNN,来创建新的且有效的SMILES序列。这些模型针对金黄色葡萄球菌产生了大约20%的独特真实活性物质,针对疟原虫产生了30%的独特真实活性物质。Jaques等人利用深度Q学习与RNN生成具有期望分子属性的SMILES。其他研究人员开发了基于策略的强化学习技术来微调预训练的RNN。毛等人最近引入了AMPTrans-lstm,这是一种结合了LSTM和Transformer模型的设计,旨在定制具有不同抗菌属性的肽(图3)。该团队利用抗菌肽(AMP)数据集以及一个公共数据库对AMPTrans-lstm进行了训练。将生成的肽与已知的AMP进行比较发现,AMPTrans-lstm产生的序列比训练数据更具多样性和独特性,同时保留了AMP的基本属性。在使用各种机器学习模型进行评估时,AMPTrans-lstm生成的序列更有可能被识别为抗菌剂,而不是随机生成的序列。尽管该模型具有诸多优势,但也面临一些挑战。首先,需要改进Transformer模块的训练稳定性,以降低训练成本。其次,需要进一步验证AMPTrans-lstm对目标微生物变化的响应能力,以及其对目标机制的准确预测能力。最后,将更多的定量方法纳入模型开发和结果比较中,对于评估DGM的质量至关重要。
图 3.使用 AMPTrans-lstm 深度生成网络生成具有多样化抗菌特性的候选抗菌肽(AMPs)的流程。深度生成网络(a)由三个模块组成:长短期记忆(LSTM)采样器(b)、Transformer 转换器(c)和识别部分(d)。Transformer 和 LSTM 模型在大型数据集上进行了预训练,并在较小的数据集上进行了微调。在生成新样本的过程中,肽序列通过 LSTM 采样创建,然后输入到 Transformer 模型中以解码新序列。最后,经过训练的定量构效关系(QSAR)模型预测了肽序列的功能。
Blaschke等人利用变分自编码器(VAE)设计多巴胺受体2型拮抗剂。尤等人开发了一种基于图的具有高斯混合隐藏空间的变分自编码器(GraphGMVAE),用于骨架跃迁,生成具有高准确性和独特骨架的化合物(图4)。该研究还引入了一种对生成分子进行排名的策略,以增强验证。为了验证GraphGMVAE,研究人员以FDA批准的人类Janus激酶1(JAK1)抑制剂乌帕替尼为参考,展示了该模型快速生成具有新骨架的分子的能力。随后在湿实验室合成的七种化合物允许进行生化测试,以评估生成分子的效力。值得注意的是,最活跃的分子对JAK1激酶表现出5.0纳摩尔的活性,这表明GraphGMVAE设计分子的能力与人类专家相当,但在效率和准确性上有所提升。然而,必须指出的是,声称GraphGMVAE具有与人类专家相当的化合物开发能力的说法忽略了药物化学中相似性原则的更广泛背景。快速跟进方法涉及修改已知药物以增强其治疗特性,这是药物开发中一个久经考验的策略。尽管分子生成器按预期工作,但其有效性应在已建立的药物化学原则的背景下进行评估。
图 4.用于控制生成化学中的骨架跃迁的深度学习模型 Graph-GMVAE。双消息传递神经网络(Dual-MPNN)编码器捕获节点信息和拓扑结构,生成节点嵌入。这些嵌入随后通过掩码用于推导侧链和骨架嵌入。高斯混合层便于对分子嵌入进行重采样,然后将这些嵌入输入到门控循环单元(GRU)解码器中,以重建相应的 SMILES。
Kadurin等人利用对抗自编码器(AAE),随后又利用druGAN(一种结合了强化学习的生成对抗网络)来生成新的化合物。在图表示方面,Kusner等人和戴等人将语法约束整合到SMILES字符串中。尤等人引入了一种利用深度强化学习生成100%有效分子的图卷积策略网络(GCPN)。
在另一项研究中,一种基于多目标强化学习RNN的从头分子设计方法,称为DrugEx(在其初始版本中),被训练生成对G蛋白偶联受体(GPCRs)具有活性的化合物,特别关注腺苷A2A受体,这是心血管和炎症疾病的一个重要靶点。在训练过程中,DrugEx模型在每次迭代中创建SMILES字符串,引入随机元素。GRU网络的RNN单任务代理最初利用从ZINC 15数据库获得的大量化学SMILES进行预训练,然后用于强化学习训练。探索和利用网络都源自这个预训练网络。在强化学习训练中,利用网络在每次重复时以预定概率进行训练,而探索网络则用于后续标记。这种方法允许在训练过程中广泛探索化学空间,之后,探索网络被逐步淘汰,只使用利用网络来生成新的化合物。研究人员强调了RNN代理开发多样化分子的能力,证明了机器生成的活性物质覆盖了通过指纹聚类报告的腺苷A2A受体活性物质生成的所有组。在DrugEx的第二个版本中,作者将RNN单任务代理的GRUs升级为LSTM单元(图5)。此更新还涉及引入基于多目标优化(MOO)的强化学习和增强的探索-利用策略。在其第三个版本中,引入了基于Transformer变体和新型基于图的编码的生成器,能够采样具有特定亚结构的分子。
图 5. 基于深度学习的分子生成器 DrugEx2 使用强化学习进行训练的流程。在预训练/微调之后,生成器通过基于计算概率的逐步标记采样,依次生成 SMILES 批次。有效的 SMILES 被解析为分子,编码为描述符,并用于通过预测器预测生物活性作为 pX(其中 pX 表示 pKi、pKd、pIC50 或 pEC50)。使用帕累托优化将预测的 pX 值组合成每个分子的单一奖励。然后将 SMILES 序列及其奖励发送回生成器,使用策略梯度方法进行训练。
尽管许多研究提出了DGM,但很少有研究探索从头生成分子的合成。对它们在体外测试中的有效性评估总体上是积极的,这激励了这一新兴领域中的进一步研究。例如,2018年,Merk及其同事报告了最早的研究结果之一,详细描述了使用深度学习模型生成的化合物的合成和随后的生物测试。深度学习算法成功设计了视黄醇X受体(RXR)激动剂和过氧化物酶体增殖物激活受体(PPAR)激动剂。利用包含50,000个与药物分子相当的化学空间编码,研究人员开发了一个基于25个PPAR和RXR激动剂已知活性的DGM。深度学习模型推荐了五种化合物,随后的生物测试揭示了两种分子,它们对RXR和PPAR的半最大有效浓度值在60纳摩尔到13微摩尔之间。表2中还介绍了几项其他研究。
将遗传算法和深度学习方法相结合,彻底改变了从头分子设计,使得能够创建具有期望属性的新颖、类药物分子。值得注意的是,GARel(基于遗传算法的受体-配体相互作用生成器)通过专注于具有独特骨架和高度类药物特性的化合物,增强了DGM。利用密集网络,GARel高效更新参数,产生具有多样化骨架、良好属性和针对AA2AR、EGFR和SARS-Cov2等靶点的改进对接分数的分子。此外,GENERA算法结合了深度学习和遗传算法,通过基于帕累托优势的有效执行多目标优化,为ACE2靶点产生了有希望的药物候选物。进化设计方法通过整合深度学习模型来指导分子进化,同时确保化学有效性,进一步发展。这种方法涉及在遗传算法中通过突变和交叉进化Morgan指纹向量,然后利用RNN重建为分子结构。当成功应用于修改有机分子的光吸收波长时,这种方法加速了设计过程。
4.基准数据集和工具
在评估药物发现的基准数据集时
,有必要区分DGM和定量构效关系(QSAR)模型。DGM旨在生成具有期望药理属性的新分子结构,依赖于多样化的训练数据集,以强调结构多样性,并包括分子相互作用、靶点特异性和生物活性特征的信息。
常见的数据来源包括PubChem、ChEMBL和专有的制药数据集。
深度学习(DL)模型的性能取决于训练期间使用的实验数据的质量,而数据质量受到数据集大小、化学和属性空间的覆盖范围、多样性和错误存在的影响。尽管公开可用的数据量不断增加,但公开数据集通常比专有的“内部”数据集小,后者仍然存在偏差且缺乏系统性探索,这会影响模型性能。解决公共数据中存在的类别不平衡和属性分布不均匀等挑战,通常需要结合多个来源的数据,从而导致数据集异质性增加。然而,合并数据源可能会引入潜在的偏差、冗余和错误,这些因素直接影响模型性能。制药行业中的标准化检测协议通常会生成更同质的数据集,但由于遗留系统、不断演变的协议和注释差异,整合多样化数据源仍然复杂。因此,仔细策划和同质化对于深度生成模型(DGMs)的成功应用至关重要。公共生物活性数据集通常缺乏阴性或非活性数据,与高通量筛选(HTS)相比存在不平衡。为了改善模型训练,采用了添加假设的阴性示例或诱饵等策略。深度生成模型的基准平台通过有效性、独特性、新颖性、多样性和可控性等指标来评估生成分子结构的质量、有效性、新颖性和多样性(表3)。
MOlecular SEtS(MOSES)和GuacaMol等工具常用于基准测试,能够评估药物相似性、合成可行性和靶标特异性,尽管面临的挑战包括在新颖性与药物相似性之间取得平衡以及定义有意义的生成指标。尽管如此,这些平台在促进早期药物发现方面发挥着关键作用。Arús-Pous等人的研究展示了使用SMILES表示法采样化学空间的循环神经网络(RNNs),证明了这种方法在基准测试深度生成模型架构方面的潜力。相比之下,定量构效关系(QSAR)预测模型建立了化学结构与属性或活性之间的定量关系,并使用包含分子描述符、物理化学属性、结构特征以及来自ChEMBL和PubChem等存储库的实验活性数据的数据集进行训练。评估涉及使用均方根误差(RMSE)、决定系数(R²)、灵敏度、特异性和曲线下面积(AUC)等指标来评估准确性、稳健性和预测能力,或用于分类任务。RDKit和化学信息学工具包等软件工具有助于评估模型性能,输出包括对给定分子结构的属性预测,如溶解度、生物活性、毒性或吸收、分布、代谢、排泄和毒性(ADMET)参数。QSAR模型基准测试面临的挑战包括数据集选择、解决偏差以及在各种化学类别中验证预测。QSAR基准平台有助于虚拟筛选(VS)、化合物优化、毒性预测和构效关系(SAR)分析,使研究人员和制药公司能够评估模型在各种属性上的可靠性和适用性。在Kwapien等人的研究中,使用不同的数据集和机器学习(ML)算法研究了关键药物设计属性的可预测性。
结果表明,加性数据更容易预测,突出了在骨架跃迁期间预测属性的复杂性。尽管深度学习模型适用于非线性事件,但在这方面并未超越经典方法。活性悬崖(其中相似分子表现出效力差异)由MoleculeACE等平台解决,该平台使用来自30个靶标的生物活性数据对24种ML和DL方法进行了基准测试。所有方法在活性悬崖方面都面临挑战,但基于分子描述符的ML优于DL方法,突出了需要专门的指标和算法来有效应对这些挑战。评估模型泛化能力需要谨慎的数据拆分和选择程序,以避免过于乐观或悲观的结果。
在行业环境中,时间拆分(反映现实场景)是首选。然而,公共数据集通常缺乏时间信息,限制了它们在学术环境中的使用。最近的文献强调了在结构-活性或属性不连续性(如非加性和活性悬崖)存在的情况下评估模型性能的重要性。
在模型部署之前,必须建立最低质量标准,并且必须使用与特定应用一致的多个指标。在行业环境中,使用与实际用户相关的指标来评估模型,并专注于理解模型决策,尤其是被视为黑箱的深度学习模型。可解释人工智能方法对于理解模型学习、评估稳健性和识别与特定效应(如有毒药理基团)相关的数据驱动特征至关重要。
这些研究对于在药物发现和开发中部署的机器学习模型建立信任至关重要。
5.人工智能与制药公司的合作
随着深度学习在医疗保健中的使用不断增加,许多制药公司已经达成财务协议或合资企业,以增强医疗保健服务并简化临床试验。
这些合作涵盖了诊断、生物标志物、药物/靶标发现、分子属性预测、从头药物设计、药物再定位等多个方面。表4总结了最近的交易,包括主要的财务协议。这些合作伙伴关系强调了人工智能在探索更广泛的分子设计空间和发现具有理想特征的不常见分子方面的价值,这些分子通过传统研究方法很难找到。Insilico Medicine是一家致力于在每个阶段使用人工智能进行全面药物发现的基于人工智能的组织,已经引入了一种独特的基于生成对抗网络(GAN)的从头药物设计方法。该公司还针对SARS-CoV-2主蛋白酶开发了化学类型。
在另一项研究中,Insilico Medicine利用GENTRL生成了通过抑制盘状结构域受体1(DDR1)治疗纤维化的分子。这些化合物的临床试验正在进行中,其中ISM001-055是一种针对特发性肺纤维化的化合物,被认为是世界上第一个从头开始使用人工智能开发靶标和药物候选物的实例。该化合物于2022年2月进行了第一阶段临床试验,第二个化合物INS018-055于2023年1月成功完成了针对纤维化疾病的活性的第一阶段试验。
最近,该公司开发了其第五个管线候选药物(ISM5411),这是一种潜在的一线疗法,用于治疗炎症性肠病(IBD),通过阻断脯氨酸羟化酶域(PHD)使用深度生成模型。公司的另外两个临床资产在表5中提到。总部位于英国的Exscientia公司利用深度学习进行药物发现,开发了针对强迫症(OCD)的DSP-1181,仅用了12个月,显著快于平均4年的临床试验时间表(2020年1月进入第一阶段)。
利用其内部人工智能工具,如Centaur Chemist和Centaur Biologist,Exscientia以结构化的方式优化各种构效关系。对于DSP-1181,使用ChEMBL存储库中的数据开发了涵盖784个人类蛋白质靶标的配体作用的贝叶斯模型,包括G蛋白偶联受体。这些模型旨在寻找具有多靶标效应的分子,同时限制非靶标效应。
公司人工智能平台的另一个资产EXS21546正在进行第一阶段临床研究,作为一种针对多种肿瘤类型的免疫肿瘤疗法。
此外,Exscientia于2021年5月在美国启动了第三种深度学习生成分子DSP-0038的第一阶段临床研究。这种分子是一种针对5-羟色胺1a和5-羟色胺2a受体的双重靶向激动剂/拮抗剂,是与住友大阪制药公司合作的成果。
公司的另外三个临床资产在表5中提到。另一家人工智能公司BenevolentAI专注于利用知识图谱进行生物数据的药物发现策略,以提出新药。该公司确定了巴瑞替尼,这是一种类风湿性关节炎药物,作为潜在的COVID-19疗法,它抑制了与适配器相关的蛋白激酶1,减少了细胞因子风暴(AAK1)。该公司于2020年2月完成了这项研究,利用其信息库。
礼来公司和BenevolentAI于2020年11月完成了COVID-19治疗的临床试验,并获得了FDA对该适应症的紧急使用授权。该公司的人工智能驱动分子BEN-2293目前正在进行特应性皮炎的临床试验。Verge Genomics是另一家利用深度学习和人类数据为特定疾病生成改进疗法的公司。他们的端到端药物开发平台CONVERGE纳入了几项技术进步。值得注意的是,该公司有一个临床候选药物处于第一阶段(VRG50635),这是一种PIKfyve抑制剂,旨在治疗肌萎缩侧索硬化症(ALS)。
这种候选药物针对的是通过该平台发现的一个新靶标。Recursion是一家开创性的临床阶段生物技术组织,通过创新的生物学方法改变寻找药用活性分子的探索。Recursion操作系统是一个跨多种技术开发的平台,持续扩展世界上最大的私人生物和化学数据集之一,即Recursion数据宇宙,以实现其目的。目前,该公司有两种分子正在进行临床试验(表5)。
还有许多其他组织积极参与这一领域,旨在通过深度学习加快开发更具成本效益的药物。深度学习的应用因公司在发现工作中的具体背景而异。例如,Relay Therapeutics和Turbine利用深度学习发现新靶标或作用机制。相比之下,Aria Pharmaceuticals、Collaborations Pharmaceuticals和Healx等公司利用深度学习探索药物再利用的潜在机会。一些组织选择结合多种人工智能技术来应对药物发现过程中遇到的各种问题。
表5详细列出了目前正在调查和正在进行临床试验的通过深度学习衍生的其他药物候选物,包括临床阶段、靶向疾病、具体靶标以及专有人工智能平台的名称(如有)。
6.制药行业中人工智能药物的成功与失败
在过去一年中,通过人工智能开发的几种药物候选物在临床试验中遭遇挫折或被降级。受影响的公司包括总部位于英国的 Exscientia,该公司最近宣布其抗癌药物候选物 EXS-21546 的 I/II 期研究将逐步结束,以及 BenevolentAI,其湿疹药物 BEN-2293 在临床试验中未能达到预期效果。与此同时,尽管 Recursion Pharmaceuticals 没有遭遇试验失败,但却遇到了临床挫折。尽管最初对人工智能驱动的药物发现充满热情,但这些发展突显了制药研发固有的挑战和不确定性,引发了关于人工智能在提高药物开发成功率方面的有效性的质疑。在生物技术领域,临床失败并不罕见,但人工智能药物候选物的 3 次失败引发了关于人工智能在提高药物开发成功率方面的有效性的质疑。这些公司的高管强调,鉴于药物候选物的高失败率,无论其开发方法如何,现在评估人工智能是否提高了成功的可能性还为时过早。这些公司在人工智能药物发现方面的努力总共投入了超过 15 亿美元,突显了这些努力所涉及的巨大资源。此外,这些第一代生物技术公司面临的挑战,加上市场的波动性,导致它们的股价大幅下跌。
需要强调的一个重要方面是,人工智能驱动的药物发现努力令人沮丧的结果并不完全反映人工智能模型本身的局限性。训练数据的不当整理也在导致人工智能模型表现不佳方面发挥了重要作用。此外,定量构效关系 (QSAR) 数据的准确性也是一个同样重要的考虑因素,因为主要挑战通常在于 QSAR 准确性的不足。值得注意的是,深度学习衍生的预测模型的开发和应用并没有总是取得预期的成功,正如各种研究所表明的那样。尽管遭遇了这些挫折,但仍在继续努力改进人工智能驱动的方法,并改进转化模型,以提高临床试验的成功率。随着制药行业的不断发展,必须批判性地评估人工智能药物在塑造药物开发未来中的作用和影响。
总之,人工智能在药物发现中的潜在影响包括提高生产力、更快更便宜的创新以及改善患者结果。此外,如果人工智能的努力的成功率(即成功通过各种临床阶段的分子数量与生成的总分子数量之比)与行业历史上的成功率相匹配,那么这将是一个积极的信号。随着更多临床数据的可用,正在进行的研究将继续塑造人工智能发现对临床成功率的未来影响。