专栏名称: 精准药物
靶向药物,精准治疗! 我们重点关注靶向药物开发及治疗有关的【新药物】、【新靶标】、【新机制】、【新方法】、【新突破】。
目录
相关文章推荐
51好读  ›  专栏  ›  精准药物

【Nature Medicine综述】AI药物研发最新进展

精准药物  · 公众号  ·  · 2025-04-08 06:30

主要观点总结

文章讨论了人工智能在药物研发中的应用,包括识别疾病靶点、药物发现、临床前和临床研究以及上市后监测等阶段。人工智能技术通过处理大量数据,有助于加速药物研发过程,减少时间和成本,并提高成功率。然而,尽管人工智能带来了显著的进步,但面临数据质量、模型可解释性、标准化评估流程、分子表示和合成可行性等挑战。文章还提出了未来研究方向,包括解决数据稀缺问题、开发多模态融合方法、纳入物理定律、提高模型的可解释性,以及建立信任等。

关键观点总结

关键观点1: 人工智能在药物研发中的应用

人工智能在药物研发中显示出巨大潜力,特别是在疾病靶点识别、药物发现、临床前和临床研究以及上市后监测等阶段。通过处理大量数据,AI有助于加速药物研发过程,提高成功率。

关键观点2: 面临的挑战

尽管人工智能带来了显著的进步,但面临数据质量、模型可解释性、标准化评估流程、分子表示和合成可行性等挑战。这些挑战限制了AI在药物研发中的有效性。

关键观点3: 未来研究方向

为了解决当前挑战并实现人工智能的潜力,未来的研究应集中在解决数据稀缺问题、开发多模态融合方法、纳入物理定律、提高模型的可解释性,以及建立信任等方面。


正文

请到「今天看啥」查看全文



药物研发是一项复杂且耗时的工程,传统上依赖于药物开发人员的经验和试错性实验。人工智能(AI)技术的出现,尤其是新兴的大语言模型和生成式AI,有望带来巨大的变革。将AI驱动的方法整合到药物开发流程中,已经在该过程的效率和有效性方面带来了细微但意义深远的提升。本文概述了AI应用在整个药物开发工作流程中的最新进展,包括疾病靶点的识别、药物发现、临床前和临床研究,以及上市后监测。最后,我们批判性地审视了当前存在的挑战,以突出AI增强药物开发领域中充满希望的未来研究方向。

药物开发是一个旨在开发治疗疾病的新药物的多方面过程。它涉及多个阶段,包括靶点识别、药物发现、临床前研究、临床试验、监管审批和上市后监测。药物开发目前面临诸多挑战,包括高昂的成本、漫长的周期和低成功率 。最后,监管要求非常严格,达到安全性、有效性和质量标准可能是一项耗时且昂贵的工程。为了克服这些挑战,科学家们一直在积极探索新技术和方法来改进药物开发过程 —— 而人工智能( AI )有望改变这一领域的现状。

人工智能( AI )的最新进展,包括图像识别、自然语言处理( NLP )和计算机视觉,在解决药物开发的关键挑战方面展现了特别的潜力。特别是,诸如 ChatGPT DeepSeek Grok Gemini 等大型语言模型( LLMs )以及诸如 Sora 等生成式 AI ,已经展示出在某些情况下超越人类智能的能力。人工智能处理海量数据的能力有望极大地加速和改进药物开发过程。因此,制药公司、生物技术公司和研究机构越来越多地采用 AI 驱动的方法来克服传统方法固有的障碍。人工智能已被证明在分析复杂的生物系统、识别疾病生物标志物和潜在药物靶点、模拟药物 - 靶点相互作用、预测候选药物的安全性和有效性以及管理临床试验(图 1 )等方面具有重要价值。然而,必须认识到,人工智能驱动的药物开发仍然面临一些独特的挑战。如果不能有效解决这些障碍,人工智能的潜力可能无法充分实现

1. 药物研发管线中 AI 整合情况

本综述探讨了自 2019 年以来人工智能在小分子药物开发中的最先进应用,在本综述中,我们首先描述了人工智能驱动的药物发现,从靶点识别到合成规划,以及人工智能在药物开发临床阶段的应用 —— 包括生物标志物发现、药物再利用、药代动力学性质和毒性的预测以及临床试验的开展。最后,我们讨论了人工智能驱动的药物开发所面临的挑战,并概述了该领域的未来方向。我们希望能够阐明药物开发中创新、效率和精确度的新时代,这有望加速向患者提供新的和更好的药物。


人工智能驱动的药物发现


近年来,人工智能已成为药物发现领域的一股变革性力量,彻底改变了传统方法,并提高了整个过程多个阶段的效率。本节将探讨人工智能对药物发现各个方面的深远影响,包括靶点识别、虚拟筛选、从头设计、 ADMET (吸收、分布、代谢、排泄和毒性)预测,以及合成规划和自动化合成与药物发现。通过利用先进的算法和技术,研究人员现在能够加速新治疗药物的发现,提高预测的准确性,并减少与药物开发相关的总体时间和成本。


靶点识别



小分子靶点(如蛋白质或核酸)的识别是药物发现中的一个关键过程。传统的亲和力拉下实验(Pull-down assay)和全基因组敲除筛选等方法被广泛使用,但往往耗时且劳动密集,失败率高。人工智能技术的进步正在通过分析复杂生物网络中的大型数据集,彻底改变这一领域。人工智能通过构建多组学数据网络,促进了疾病相关分子模式和因果关系的识别,从而推动了候选药物靶点的发现。例如,最近的研究利用自然语言处理技术(如word2vec嵌入)将基因功能映射到高维空间,提高了靶点识别的灵敏度,尽管基因功能重叠稀疏。然而,有效整合多组学数据并确保人工智能模型的可解释性仍然是具有挑战性的任务。图深度学习技术通过将图结构与深度学习相结合,专注于与关键特征(例如,原子类型、电荷)相关的图节点,有效地识别候选靶点,从而解决了这些问题。最近一项研究成功开发了一个使用带有图注意力机制的多组学网络图的可解释框架,以有效预测癌症基因。此外,将多组学数据与科学和医学文献整合到知识图谱中,使人工智能能够识别基因和疾病通路之间的关系。当生物医学大型语言模型与生物网络或知识图谱功能深度整合时,它们为连接疾病、基因和生物过程提供了高效而精确的方法。

真实世界数据,如医疗记录、自我报告、电子健康记录( EHRs )和保险索赔,为理解复杂疾病和促进靶点发现提供了重要的背景信息。然而,真实世界数据通常包含非结构化文本,缺乏标准化,并且可能包含偏倚,这限制了它们在此背景下的应用。虽然高质量的、经过整理的数据集对于训练模型至关重要,但真实世界数据本质上是嘈杂的,并且由于多种疾病的汇合而变得复杂。尽管存在这些问题,最近的研究表明,嘈杂的真实世界数据仍然可以训练出有效的模型,从而提高了在嘈杂的医疗记录和非专家疾病标签场景中基因发现和候选药物靶点的潜力。增强模型在不同人群中的泛化能力仍然是一个重大挑战,特别是对于标签或患病率较低的疾病。随着真实世界和多组学数据的日益丰富,利用先进的数据挖掘算法和专家知识将进一步增强它们的整合,显著提高靶点发现的成功率。


虚拟筛选


虚拟筛选是高效识别潜在先导化合物或候选药物的关键策略。化合物库的快速扩张需要加速超大型库的虚拟筛选,这推动了配体对接人工智能技术的发展。基于人工智能的受体 - 配体对接模型可以预测配体的空间变换,使用诸如等变神经网络等算法直接生成复杂的原子坐标,并学习受体 - 配体距离的概率密度分布以生成结合姿势。值得注意的是,基于 AlphaFold2 RosettaFold 的最新受体 - 配体共折叠网络在直接从序列信息预测复杂结构方面显示出前景。然而,由于对物理约束的学习不足,它们可能产生不切实际的配体构象,因此需要进行后处理(例如,能量最小化)或几何约束来优化对接姿势的有效性。然而,在面向口袋的对接任务中,基于深度学习的结合姿势预测模型尚未超越基于物理的方法,并且它们通常没有充分考虑受体口袋的灵活性。此外,预测精确的受体 - 配体相互作用仍然是一个挑战。虽然早期机器学习在亲和力预测方面的成功激发了对深度学习模型的兴趣,并且这些模型可以通过处理三维结构和非结构数据来超越传统的评分函数,但它们的性能在很大程度上取决于配体姿势的准确性,并且主要适用于已知的受体结构。

当靶点结构缺失或不完整时,直接应用基于对接的虚拟筛选是不切实际的。作为替代方案,人工智能技术可用于基于序列的预测方法。然而,这些方法通常难以捕捉三维蛋白质 - 配体相互作用的复杂性,从而使准确预测结合姿势变化如何影响相互作用强度变得复杂。

虽然靶向药物开发对于明确的靶点是有效的,但许多疾病缺乏此类靶点。因此,对于靶点未明确的疾病(例如,罕见病)和广泛表型疾病(例如,衰老),基于表型的虚拟筛选至关重要。最近一项研究利用核形态和机器学习来识别诱导癌细胞衰老的化合物;类似的策略在抗生素发现方面也很有前景。然而,此类模型通常依赖于特定案例的表型数据,并且在泛化方面存在困难。此外,仅依赖于配体化学结构的人工智能活性预测面临数据稀疏和不平衡以及活性悬崖等挑战。最近的研究表明,整合细胞形态和转录谱等相关生物信息可以提高模型性能,为更准确的活性预测提供了新的方向。

目前的虚拟筛选模型通常侧重于评分、姿势优化或筛选等特定任务,这强调了开发能够处理多项通用模型的需求。纳入归纳偏置(指模型优先考虑某些类型解决方案而非其他解决方案的固有趋势)或数据增强(指用于人为扩展训练数据集多样性而不收集新数据的技术)可能会提高模型的泛化能力。此外,商业化合物集合呈指数级增长至数十亿,这使得全面的筛选在计算上不可行。同时,可用的分子库仅覆盖了可成药化学空间的一小部分,而该空间仍在不断扩大——这为导航和筛选生物活性分子带来了机遇和挑战。

为了应对这些挑战,诸如主动学习和贝叶斯优化等技术是解决化学空间搜索问题的有效方法,并成为提高虚拟筛选效率的关键。将量子力学与人工智能相结合,为化学空间探索提供了新工具,而分子动力学模拟则加深了对蛋白质 - 配体相互作用的理解,解决了结合亲和力和选择性问题,从而提高了模型准确性。同时,通过为特定靶点或化合物类型生成定制的虚拟库,深度生成模型大幅缩小了搜索空间,提高了筛选效率。例如,我们开发的条件循环神经网络生成了一个定制库,该库在细胞和动物模型中识别出了一种高效且选择性的 RIPK1 抑制剂。

图2.AI分子生成流程

从头设计

从头药物设计涉及自主创建新的化学结构,以最佳方式满足所需的分子特征。传统的基于结构、基于配体和基于药效团的设计方法是手动的,依赖于专家设计师和明确的规则。人工智能,尤其是深度学习,实现了自动识别满足特定要求的新结构,绕过了传统的专业知识。这项技术已成功应用于开发通过湿实验室实验验证的小分子抑制剂、 PROTACs 、肽和功能蛋白,开创了一个更高效、更具创新性的药物发现时代。

在深度学习驱动的从头设计(图 2 )中,分子生成组件是核心,通常使用化学语言或基于图的模型。化学语言模型将分子生成任务转化为序列生成,例如 SMILES 字符串( 简化分子输入线输入系统 ,一种以线性文本格式表示化学结构的表示系统)。尽管需要大量的预训练,并且由于语法错误可能会产生无效的 SMILES ,但这些错误可以通过过滤不太可能的样本来帮助模型自我纠正。诸如长短期记忆模型(一种分析序列数据的深度学习模型)等模型面临信息压缩瓶颈,阻碍了全局序列属性的学习,这表明需要诸如 Transformers 等架构来更好地捕获全局属性。最近的研究将结构化状态空间序列集成到化学语言模型中,揭示了高化学空间相似性,并与关键天然产物设计特征对齐,证明了该模型在从头设计中的实用性。

相反,基于图的模型将分子表示为图,使用自回归或非自回归策略生成结构。自回归方法逐个原子地构建分子,这可能导致化学上不合理的中间体并引入偏差。相比之下,非自回归方法一次生成整个分子图,但需要额外的步骤来确保图的有效性,因为这些模型对分子拓扑结构的有限感知可能会导致有缺陷的结构。

针对类药化学空间的广阔性,从头生成通常使用基于指标(包括与已知活性分子的相似性和预测的生物活性)的评分函数等优化机制,引导设计朝着目标特征发展。纳入强化学习进行迭代优化是一种有效的方法,但设计合适的评分函数具有挑战性,因为直接量化合成可行性或类药性等目标很困难,通常会导致意想不到的后果。此外,强化学习的广泛优化步骤突出了样本效率方面的挑战,而主动或课程学习策略可能会缓解这些挑战。

除了引入评分函数外,纳入约束条件——例如疾病相关基因表达特征、药效团、蛋白质序列或结构、结合亲和力以及蛋白质 - 配体相互作用 —— 也可以引导模型生成所需的分子。例如, PocketFlow 模型,以蛋白质口袋为条件,有效生成了针对 HAT1 YTHDC1 靶点的实验验证活性化合物,展示了其药物设计能力。此外,模型可以通过将输出限制在所需候选物的特定支架或片段上,来优化先导化合物,尽管这会以限制化学多样性为代价。


ADMET


ADMET在确定药物疗效和安全性方面起着至关重要的作用。虽然市场批准需要湿实验室评估,并且不能完全被模拟所取代,但早期ADMET预测有助于减少因不良特性导致的失败。人工智能已成为使用预定义特征(如分子指纹或描述符)预测ADMET

特性的有价值的工具。例如,拜耳的计算机模拟 ADMET 平台使用随机森林和支持向量机等机器学习技术,并使用环状扩展连接指纹等描述符,以确保准确性和相关性。过去几十年中,已经开发了用于 ADMET 预测的各种描述符。然而,这些基于特征的方法中涉及的特征工程仍然复杂,并限制了通用性和灵活性。

深度学习现在推动着 ADMET 预测,从简单的输入数据中自动提取有意义的特征。各种神经网络架构,包括 Transformers (旨在有效处理序列数据)、卷积神经网络(一种常用于图像和视频识别任务的深度学习模型)以及最近的图神经网络(用于处理图结构化数据(如分子结构)的深度学习模型),都擅长于从 SMILES 字符串和分子图等格式中建模分子特性。其中, SMILES 字符串提供了紧凑的分子表示,并且可以清晰地表达分支、环和手性等子结构,但缺乏拓扑意识 —— 而图神经网络(如 GeoGNN 模型)则纳入了几何信息,在 ADMET 预测中提供了卓越的性能。事实上,最近的一项研究表明,使用 SMILES 输入的 Transformer 模型在完整结构识别方面存在困难。对于涉及毒性等特性的预测,这些模型生成的表示的性能可能会在训练进展之前达到饱和,在训练后显示出有限的改进。

尽管新型深度学习算法推动了进步,但该领域仍然面临挑战。高成本和大量时间投入导致 ADMET 预测中的标记数据稀缺,从而导致潜在的过拟合。无监督和自监督学习提供了解决方案,虽然基于大型 Transformer 的模型在其他领域显示出前景,但它们在 ADMET 预测中的应用仍未得到充分探索。最近一项研究表明,尽管 SMILES 语言不直接编码分子拓扑结构,但使用配备线性注意力机制的上下文 Transformer 进行精心设计的自监督训练可以有效地学习隐式结构 - 性质关系,从而增强了将大规模自监督模型应用于 ADMET 预测的信心。

图3. AI驱动的药物合成预测

此外,分子表示对于人工智能的性能至关重要。高维表示通常比低维表示提供更丰富的信息。然而,最近的研究表明,整合多层次的分子表示可以显著增强学习效果,从而产生更全面、更具泛化能力和更稳健的 ADMET 预测。这表明,同时使用多种表示的多模态 ADMET 模型具有潜力,尽管数据类型的最佳组合仍未解决。可解释性仍然是一个重大挑战。理解 ADMET 预测中的模型参数有助于揭示分子子结构和性质之间的关系。注意力机制(允许模型专注于输入数据的重要部分)可以通过识别关键原子或基团来增强可解释性。整合化学知识可以进一步增强可解释性,但扩展模型以实现全面的化学理解仍然具有挑战性。


合成规划与自动合成和药物发现


化学合成是小分子药物发现的瓶颈之一,是一项技术性强且极其繁琐的任务。计算机辅助合成规划( CASP )和有机化合物的自动合成有助于减轻化学家重复性繁琐工作的负担,使他们能够从事更具创新性的工作。随着人工智能的快速发展,制药行业和学术界对实现这一过程的智能化和自动化越来越感兴趣。

CASP 已被用作辅助化学家通过逆合成分析确定反应路线的工具,逆合成分析是一种问题解决技术,其中目标分子被递归地转化为越来越简单的先体(图 3a )。早期的 CASP 程序是基于规则的(例如,应用于合成分析、化学合成模拟和评估的逻辑和启发式方法,以及基于逆合成的合成可及性评估程序)。此后,一系列机器学习技术,特别是深度学习模型,得到了发展 —— 在人工小分子和天然产物的合成规划方面取得了逐步改进。最近, Transformer 模型也被应用于逆合成分析、区域选择性(化学反应在具有多个可能反应位点的分子上优先发生在一个特定位置而不是另一个位置的偏好)和立体选择性(当存在多种立体异构体产物时,反应优先产生一种立体异构体而不是另一种立体异构体的偏好)的预测以及反应指纹提取。然而,对于复杂合成规划而言,纯粹数据驱动的人工智能方法的充分性问题,促使人们开发结合化学规则的混合专家 - 人工智能系统。然而,目前大多数深度学习方法都是不可解释的,显示为提供有限见解的 黑匣子 。为了应对这一挑战,最近引入了一种新的逆合成预测模型 RetroExplainer ,它具有可解释的深度学习框架,将逆合成任务重新定义为分子组装过程。与最先进的逆合成方法相比, RetroExplainer 显示出卓越的性能。值得注意的是,其分子组装方法增强了可解释性,实现了透明的决策和定量归因。

有机化合物的自动合成代表了化学相关领域(包括药物化学)的前沿领域(图 3b )。一个最佳的自动化合成平台将无缝集成和简化化学开发过程的各个组成部分,包括 CASP 以及自动化实验设置和优化,以及机器人执行的化学合成、分离和纯化。最近,深度学习驱动的自动化流动化学和用于药物化合物合成的固相合成技术受到了相当大的关注。特别是,自动化合成与设计、测试和分析技术相结合,形成了药物发现的自动化中心过程,称为设计 - 制造 - 测试 - 分析( DMTA )循环。通过利用深度学习, DMTA 循环的效率得到了显著提高,加速了药物发现的先导化合物的发现。例如,通过使用人工智能驱动的 DMTA 平台,利用深度学习进行分子设计和微流控进行芯片上化学合成,从头生成了肝 X 受体激动剂。此外,大型语言模型( LLMs )被认为 理解 人类自然语言,使自动化平台能够根据研究人员的简洁输入,为特定挑战提供量身定制的解决方案。尽管自动化合成和自动化 DMTA 循环具有广阔的前景,但它们的发展仍处于起步阶段。许多技术挑战仍然存在,包括减少固体形成以避免堵塞、预测非水溶剂和不同温度下的溶解度、估计最佳纯化方法以及优化多步反应的要求。

在新药化合物的规划和合成之后,人工智能技术促进了新药作用机制( MOA )的体内验证。在高内涵筛选中,通过监测组学数据的实时变化,人工智能技术将这些特征进行泛化,并开发一个能够解读新化合物的分子和细胞 MOA 及其相关的药代动力学、药效动力学、毒理学和生物利用度特性的模型(图 4 )。

图4.AI驱动的MOA预测


临床试验和真实世界中的人工智能


人工智能通过分析患者数据(包括基因信息、临床病史和生活方式因素),越来越多地指导临床试验的各个方面。将人工智能方法应用于此类数据有助于识别影响药物反应的生物标志物和患者特征,从而实现更高效、更具信息量的试验设计。通过优化患者选择、治疗方案和结果测量等参数,人工智能有潜力提高试验成功率,并加速候选药物向临床实践的转化。真实世界数据也提供了丰富的信息来源,人工智能应用可以从中预测不良事件、药物-药物相互作用和其他结果。以下各节将描述人工智能在药物开发临床阶段的关键应用。


生物标志物发现


生物标志物是用于客观测量和评估正常与病理过程以及治疗反应的生物学指标,在医学、生物技术和生物制药领域具有巨大的应用价值。然而,传统的假设驱动的生物标志物发现方法通常效率低下,并且无法全面解决疾病的复杂性。这些方法耗时且需要大量资源进行假设验证,而有限样本量的限制阻碍了在不同人群中的广泛验证。

人工智能的最新进展极大地促进了生物标志物的发现。人工智能模型擅长识别诊断生物标志物,为临床病理学提供预测性见解和诊断参考。一个值得注意的例子是“ nuclei.io” 数字病理学框架,它将主动学习与实时人机交互相结合。这有助于通过基于核统计数据向病理学家提供精确反馈,高效构建用于各种外科病理学任务的数据集和人工智能模型,从而显著提高诊断准确性和效率。

人工智能在识别对于预测疾病进展和患者生存至关重要的预后生物标志物方面也表现出色,从而实现靶向和个性化治疗。例如,深度学习模型可以将血样中的 CD8+ T 细胞形态描绘为有效的脓毒症预后指标,区分标记细胞衰老的核特征,并识别蛋白质组生物标志物以准确预测肝病结果。人工智能还可以预测各种癌症的预后生物标志物,提供用于生存、复发和转移的精确风险评分。值得注意的是,使用图神经网络的生存分析模型优于现有模型,有效区分了超出传统临床分级和分期的风险组 —— 强调了人工智能在预后增强方面的潜力以及病理学家与人工智能之间关键的合作。

在药物开发中,识别预测性生物标志物对于通过选择最有可能从治疗中获益的患者群体来提高研究成功率至关重要。这些发现需要严格的前瞻性临床验证。尽管基于人工智能的预测性生物标志物尚未应用于临床,但概念验证研究表明,人工智能可以通过预测已知的生物标志物来预测患者对治疗的反应。生物系统的复杂性需要将多种类型的生物学数据(包括蛋白质 - 蛋白质相互作用)整合到人工智能模型中,以进行更全面的预测。

面对大型标记数据集的稀缺,研究人员正在部署各种策略来优化人工智能在生物标志物发现中的应用。来自多个来源的数据集整合显示出巨大的前景。来自可穿戴传感器的数字生物标志物也通过提供丰富的纵向数据集扩展了发现的范围。通过分子诊断、放射组学和组织病理学成像识别多模态生物标志物,为精准医疗提供了新的途径。此外,群体学习和自动化数据集处理管道为大规模、安全的数据收集奠定了基础。

然而,人工智能模型在将其转化效率应用于临床试验时,面临着与异质性相关的挑战。一些研究利用深度学习来阐明细胞和组织水平的异质性以及肿瘤生态系统的多样性,为疾病亚型分类和患者分层提供了新的途径。可解释性和信任对于人工智能模型在临床上的接受度至关重要,可以通过整合先前的医学知识或将生物学关系嵌 入神经网络来增强。解决人工智能驱动的生物标志物发现中的偏倚问题,需要跨地理上不同患者队列验证模型以及开发公平透明的算法等策略。稳健的验证和负责任的数据管理将促进生物标志物的识别和应用,支持未来的药物开发和疾病治疗。


预测药效学性质


应用人工智能和大数据工具可以有效解决药效学问题,并为事件时间分析提供强大的工具,特别是在处理高维数据和风险函数中的非线性关系时。人工智能通过优化剂量 - 反应关系、改善药物安全性概况和优化治疗窗口来支持个性化治疗,这些都是解决精准医疗中药效学问题的核心。对 442 种小分子激酶和 2,145 种不良事件的机器学习分析,发现了新的激酶 - 不良事件对,有助于风险缓解和更安全的小分子激酶抑制剂的开发。多组学变分自编码器( MOVE )框架整合多组学数据,揭示药物相互作用 —— 例如二甲双胍与肠道微生物群之间的联系 —— 并比较各种组学模式下的药物反应。 PharmBERT ,一种特定领域的语言模型,通过从处方标签中提取关键的药代动力学信息来增强药物安全性,有助于识别不良反应和药物相互作用。人工智能还通过分析遗传和生理数据来优化药物剂量,从而提供改善治疗效果的个性化治疗建议。此外,人工智能可以分析患者的遗传信息、生理特征和过去的治疗反应,为医生提供个性化的剂量调整建议,从而优化治疗效果。


药物再利用


除了新药发现外,人工智能还通过使用大规模生物医学数据集再利用现有的、已批准的药物,为药物库做出贡献,从而加速各种疾病的最佳治疗方案的开发。通过发现已批准药物以前未被识别的治疗特性,人工智能减少了与药物发现相关的时间和成本。例如,人工智能加速了 2019 年冠状病毒病( COVID-19 )药物的再利用,突显了人工智能在为现有药物寻找全新应用方面的价值。人工智能还可以使用真实世界数据(包括电子健康记录和保险索赔)模拟临床试验,以促进药物再利用。例如,一种深度学习循环神经网络使用因果推理和深度学习分析医疗索赔数据库,有效识别潜在的候选药物。应用于数百万冠状动脉疾病患者的队列研究中,它精确地指出了增强治疗效果的药物和组合。

另一种基于深度学习的药物再利用方法涉及将深度神经网络应用于组学数据,以根据药物在体外诱导的转录扰动将药物分类为治疗类别。一项研究利用了 LINCS 项目( https://lincsproject.org/ )的扰动样本和来自 MeSH 12 个治疗类别,获得了高分类准确率 —— 特别是在跨越各种生物系统和条件的通路水平数据方面 —— 为药物重定位提供了潜力。特征归因技术与可解释的机器学习模型集成,增强了与协同药物反应相关的基因表达特征的识别。该策略已被证明可以提高特征的可解释性,并支持基于分子见解选择最佳的抗癌药物组合。

此外,基于人工智能的高内涵筛选也可应用于药物再利用(图 4 )。开发了一种深度学习模型 MitoReID ,通过线粒体表型分析识别作用机制( MOA )。它为药物发现和再利用提供了一种经济高效的高通量解决方案,通过未见药物(不属于训练集)和体外验证进行了验证。通过分析 570,096 张细胞图像, MitoReID 在识别美国食品和药物管理局批准的药物的作用机制方面达到了 76.32% 的准确率,并成功验证了茶中天然化合物表儿茶素的环氧合酶 -2 抑制作用。然而,人工智能驱动的药物开发的其他阶段中遇到的许多挑战也适用于药物再利用,包括数据质量、模型可解释性、泛化能力、验证成本、监管障碍、与现有流程的整合以及高计算需求等问题,这些都阻碍了广泛采用和实际应用。

图5. AI在临床中的运用


提高试验效率和预测结果


临床试验通常成本高昂、耗时且效率低下,大多数试验在注册时面临延误或难以找到足够的志愿者。人工智能有潜力优化试验设计、简化招募和预测患者反应,提高试验效率和成功率,同时降低成本和时间。已经创建了一个先进的流程,整合多模态数据集,使用人工智能生成分子先导化合物,按疗效和安全性对其进行排序,并使用深度强化学习创建用于测试的可申请专利的类似物。它还通过估计副作用和通路激活来预测 I/II 期临床试验结果,提高预测准确性并识别药物组合中的潜在风险。在真实世界研究中,人工智能可以分析来自电子健康记录、保险索赔和可穿戴设备的数据,以评估药物的有效性和安全性(图 5 )。例如,一项使用真实世界数据和 Trial Pathfinder 工具的研究模拟了来自 61,094 名晚期肺癌患者的电子健康记录数据中的试验结果,结果显示放宽试验标准可以将符合条件的患者数量增加一倍,并改善生存结果。该方法已在各种癌症中得到验证,支持更具包容性和安全性的试验。

Unlearn.ai 探索的数字孪生技术可以缓解寻找符合纳入标准的合适患者的挑战。该技术创建参与者的虚拟副本,允许他们作为对照组,从而增加实验组的参与者数量并提高试验效率。 Unlearn.ai 2020 4 月获得了 1200 万美元的资助以推进该应用,而 Novadiscovery Jinkō 等其他公司正在为肺癌等疾病进行基于数字孪生的临床试验模拟。所提出的方法使用基于基因表达和临床数据的计算机建模,结合深度学习和生成对抗网络。通过利用各种健康指标,这些数字孪生技术提供了对重要过程的定量见解,提供了动态的健康指导并优化了治疗策略。该方法旨在加深对生物学机制的数学理解,彻底改变临床实践并完全个性化医疗保健,例如,通过生成基于药物输入的预测生存概率的患者特异性模型。这些模型还可以模拟临床试验并优化试验参数,从而提高成功率。但它们也存在挑战,包括高计算成本、复杂的流程集成、伦理问题和有限的个性化。这些问题影响了患者模拟的准确性、试验设计和监管接受度,从而减缓了创新。

除了药物开发的临床试验阶段,人工智能还可以分析上市后监测数据,以支持药物的安全性、有效性和质量。开发和同时使用替代方法,以便在监管审查过程的早期识别和解决安全问题,对于推进监管科学和优化药物开发至关重要。


挑战


尽管取得了进展,但目前尚无人工智能开发的药物进入 III 期临床试验,这突显了药物开发的复杂性。一个关键挑战是缺乏高质量的训练数据,这归因于高昂的获取成本、隐私法规和有限的数据共享 —— 特别是对于罕见疾病或新型药物靶点 —— 这阻碍了人工智能在识别靶点、生物标志物和其他功能方面的有效性。此外,现有数据通常存在信息缺失、错误和偏倚,进一步降低了人工智能的可靠性。药物发现实验可能产生不一致的结果,而节约成本的措施可能导致数据不完整。此外,文献中 阴性 数据(例如,不成功的实验和阴性试验结果)的代表性不足,阻碍了对药物 - 靶点 - 疾病相互作用、疗效和其他临床特征的全面理解。

药物设计中的一个关键挑战是在成功的多重目标之间取得平衡。当前的研究通常过于关注化学空间,而忽略了其他关键因素(如成药性和合成可及性)。尽管多目标设计方法正在改进,但开发有效的评分函数(例如,亲和力预测和生物活性)仍然复杂,并且需要大量的实验。缺乏标准化的评估流程进一步使模型评估变得复杂,尤其是在出现相互冲突的目标时,例如在实现结构新颖性的同时最大化与已知生物活性分子的相似性。尽管存在 MOSES Guacamol 等基准测试平台,但尚未就最佳实践达成共识。

适当的分子表示是生成模型中的关键。 SMILES 和图等传统方法很常见,并且正在被分层分子图自监督学习等新兴的数据驱动方法所补充。然而,捕捉复杂性和确保合成可及性是困难的。目前评估合成可行性的方法通常不精确,导致发现不可合成的分子。将反应知识整合到分子生成中显示出前景,但仍需要改进。模型可解释性、生成新分子的不确定性以及偏倚等问题已成为学术界关注的焦点。将偏倚控制与不确定性估计有效整合对于提高生成分子的质量至关重要。

人工智能在缺乏合适结合位点的所谓 不可成药 靶点方面面临挑战,包括某些无序蛋白质、转录因子(如 MYC IRF4 )以及蛋白质 - 蛋白质相互作用。探索其构象空间并识别配体结合位点的新人工智能方法和高内涵筛选(图 4 )可能有助于克服这些障碍。

最后,算法和计算能力的技术挑战限制了人工智能在药物开发中的应用。药物开发中使用的许多人工智能算法都是为其他领域设计的,可能并不完全适用;例如,需要基于自然语言处理的新算法来捕捉三维空间相互作用。此外,人工智能方法所需的高计算资源构成了障碍,特别是对于小型研究团队。与云提供商合作并开发更高效的算法有助于解决这些挑战。此外,由于周期长、成功率低和回报不确定,人工智能药物开发面临人才短缺和投资风险,影响了投资者信心。


未来方向


人工智能通过从复杂的多组学生物医学数据中提取关键见解,识别新的生物标志物并检测治疗靶点和异常,正在彻底改变药物开发过程,从而促进先导化合物和候选药物的发现。此外,人工智能加速了药物发现、再利用和毒性预测,从而降低了时间、成本和安全风险。然而,在这一领域充分实现人工智能驱动的进步的道路仍在进行中,需要克服许多挑战并实现潜力。未来为应对上述挑战所做的努力应特别强调以下几个关键方向。

首先,开发解决人工智能驱动的药物开发中数据稀缺问题的新策略应是首要任务。增强数据共享、建立数据标准和开发新的人工智能算法(例如,能够从非常有限的数据中产生准确预测的 稀疏 人工智能方法)的可行策略至关重要。整合文本和化学信息的多模态预训练模型在解决数据稀缺问题方面显示出前景,尤其是在零样本场景中。通过整合基因组学、转录组学、疾病特异性分子通路、蛋白质相互作用和临床记录等一系列数据,人工智能还可以识别具有被忽视或罕见疾病潜在再利用机会的现有药物。

当前的方法通常侧重于单一数据类型,从而错过了各种生物系统之间复杂的相互关系。建立有效的多模态融合方法可以从不同来源和格式中提取有价值的见解,以推进药物开发。随着大数据和基于图形处理器( GPU ,而非传统的中央处理器, CPU )的 GPU 计算的兴起,人工智能现在可以应用于各种数据形式,包括文本、图像和视频。使用组学数据的新兴模型,包括基于深度学习的药物分类,在药物疗效预测、机制识别和毒性评估方面显示出前景,突显了多模态人工智能在药物开发中的未来潜力。

许多当前的人工智能模型都是纯数据驱动的,由于相对缺乏足够高质量的数据,限制了它们在药物开发中的有效性。由于我们的生命系统都遵循物理学原理(也称为第一性原理),药物也无一例外地遵循物理定律的约束。将物理定律纳入现有的数据驱动人工智能算法是未来的研究方向,有助于减少数据依赖性,并提高这些模型的准确性和泛化能力。

人工智能,尤其是大型语言模型( LLMs ),可以通过分析大量文档并掌握最新要求,确保符合药物法规。这提高了效率,降低了不合规的风险,并防止了药物审批的延误。开发不仅准确而且可解释的人工智能模型,对于通过确保决策过程的透明度和理解,在药物开发人员、监管机构、临床医生和患者之间建立信任至关重要。这些模型可以尽早纳入,以优化项目资金并指导投资,从而加速药物开发。

在未来几十年中,人工智能在医学建模和模拟中的作用将是变革性的。先进的人工智能模型将创建越来越详细的虚拟人体模拟,进一步增强我们对疾病机制、药物作用和个体生物学差异的理解。通过模拟,人工智能可以简化临床试验设计和执行,测试最佳选择标准的不同场景,以加速患者招募并提高试验的代表性。人工智能还将通过分析健康数据和基因组学,提供个性化的医疗决策支持,从而实现精确的风险预测、优化的治疗和改进的手术指导。医学教育将受益于人工智能驱动的虚拟现实,提供更真实的培训场景并提高医疗服务质量。

结论


总而言之,人工智能技术的不断进步正在显著提高药物开发的效率和成本效益。然而,必须认识到人工智能并非万能。人工智能技术的优势在于分析大型复杂数据并辅助快速决策,以补充人类功能和增强人类能力,但人工智能并非旨在完全取代人类的聪明才智或权威。人工智能设计的药物和预测的特性仍需要通过湿实验室实验进行验证,并且仍需要人类输入来确定人工智能研究和使用的方向。然而,鉴于人工智能不断增长的能力和进步的速度,以及包括最近的 AlphaFold3 在内的大型模型的开源,我们可以谨慎地对人工智能在加速药物开发和造福人类健康方面的前景保持乐观。

参考文献: Zhang K, Yang X, Wang Y, et al. Artificial intelligence in drug development[J]. Nature Medicine, 2025: 1-15.



声明:发表/转载本文仅仅是出于传播信息的需要,并不意味着代表本公众号观点或证实其内容的真实性。据此内容作出的任何判断,后果自负。 若有侵权,告知必删!



长按关注本公众号


粉丝群 / 投稿 / 授权 / 广告
请联系公众号助手
觉得本文好看,请点这里↓







请到「今天看啥」查看全文