2024年11月25日,四川大学华西医院杨胜勇教授、温州医科大学眼视光医院张康教授领衔、温州医科大学李校堃院士、北京生命科学研究所黄牛研究员等团队在国际顶级期刊Nature Medicine发表了一篇题为“Artificial intelligence in drug development”的综述文章,
系统探讨了人工智能(AI)技术在药物研发全流程中的应用进展、面临的挑战及未来发展方向。
传统药物研发过程复杂且耗时,平均需要投入约26亿美元、耗时12至15年,成功率却不足10%。AI技术的出现为这一领域带来了变革性机遇,尤其在疾病靶点识别、药物发现、临床前和临床研究以及上市后监测等环节展现出巨大潜力。尽管AI在药物研发中展现出巨大价值,但仍面临诸多挑战,如高质量训练数据匮乏、模型可解释性不足、计算资源需求高以及在“不可成药”靶点上的应用难题等。
文章强调,未来需开发新策略解决数据稀缺问题,建立多模态融合模型以充分利用多源数据,并将物理定律融入AI算法以降低数据依赖性,同时提升模型的可解释性和透明度。
该综述为AI在药物研发领域的应用提供了全面的总结与展望,为未来AI驱动的药物研发提供了重要的理论支持和实践指导。
药物研发是一个旨在开发治疗疾病的新型药物的复杂多面过程,涵盖靶点识别、药物发现、临床前研究、临床试验、监管审批以及上市后监测等多个阶段。当前,药物研发面临着诸多挑战,包括高成本、长周期和低成功率。平均而言,研发一种新药需要投入约26亿美元,并可能耗时12至15年,而新药在临床试验阶段的成功率甚至不足10%。这些挑战的根源在于:疾病本身往往复杂且多因素导致,难以找到有效的治疗方法;研发过程本身复杂,涉及多个阶段,任何一个环节的失败都可能导致整个项目的终止;此外,寻找潜在药物候选分子需要探索的化学空间极为庞大(估计达到10⁶⁰至10¹⁰⁰量级),这使得药物发现的难度如同大海捞针。最后,严格的监管要求使得满足安全性、有效性和质量标准的过程既耗时又昂贵。
为了克服这些挑战,科学家们一直在积极探索新技术和方法来改进药物研发过程,而人工智能(AI)技术被认为有可能彻底改变这一领域。
近年来,AI在图像识别、自然语言处理(NLP)和计算机视觉等领域取得了显著进展,并在药物研发的关键挑战中展现出巨大潜力。特别是像ChatGPT和Gemini这样的大型语言模型(LLMs),以及像Sora这样的生成式AI,已经在某些情况下展现出超越人类智能的能力。AI处理海量数据的能力有望大幅加速并改善药物研发过程。因此,制药公司、生物技术公司和研究机构越来越多地采用AI驱动的方法来克服传统方法中的障碍。AI已被证明在分析复杂生物系统、识别疾病生物标志物和潜在药物靶点、模拟药物-靶点相互作用、预测药物候选物的安全性和有效性以及管理临床试验等方面具有重要价值。然而,必须认识到,AI驱动的药物研发仍面临一些独特的挑战,如果没有有效的解决方案,AI的潜力可能无法完全实现。
Target identification(靶点识别)
在药物研发中,小分子靶点识别至关重要,传统方法耗时费力且失败率高。AI技术的进步为该领域带来变革,它能够分析复杂生物网络中的大数据集。通过构建多组学数据网络,AI有助于识别疾病相关分子模式和因果关系,进而发现候选药物靶点,例如运用NLP技术映射基因功能,以及利用图深度学习技术开发可解释框架预测癌症基因。此外,将多组学数据与科学医学文献整合到知识图谱中,能帮助AI识别基因与疾病途径之间的关系,像PandaOmics平台就借此发现了潜在治疗靶点。然而,这一过程也面临挑战,文献中可能存在发表偏倚,现实世界数据存在非结构化、缺乏标准化和有偏差等问题,增强模型在不同人群中的泛化性也颇具难度。随着数据的不断丰富,运用先进数据挖掘算法和专家知识,有望提高靶点发现的成功率。
虚拟筛选是识别潜在先导化合物或药物候选物的关键策略。随着化合物库的迅速扩张,对超大型库的虚拟筛选需求更为迫切,推动了AI技术在配体对接领域的发展。基于AI的受体-配体对接模型可预测配体空间变换,直接生成复杂原子坐标并学习受体-配体距离的概率密度分布以产生结合构象。例如,基于AlphaFold2和RosettaFold的受体-配体共折叠网络,能直接从序列信息预测复杂结构,但可能产生不切实际的配体构象,深度学习模型在口袋导向对接任务中也尚未超越基于物理的方法,精确预测受体 - 配体相互作用仍存在困难。当靶标结构缺失或不完整时,基于序列的预测方法可作为替代,但难以捕捉三维蛋白质 - 配体相互作用的复杂性。对于无明确靶点的疾病,表型虚拟筛选至关重要,然而相关模型的泛化性较差。仅依赖配体化学结构的AI活性预测面临数据稀疏、不平衡和活性悬崖等问题,整合细胞形态和转录谱等生物信息可提升模型性能。当前虚拟筛选模型多专注特定任务,开发通用模型很有必要,融入归纳偏差或数据增强技术可提高模型泛化性。商业化合物集合数量庞大,现有分子库覆盖范围有限,积极学习、贝叶斯优化、量子力学与AI的结合以及分子动力学模拟等技术,可提升虚拟筛选效率,深生成模型通过生成定制虚拟库也能增强筛选效果。
从头设计在药物研发中意义重大,它旨在自主创造满足特定分子特征的全新化学结构。传统的药物设计方法,像基于结构、配体或药效团的设计,主要依靠人工操作,依赖专家经验和明确规则,过程较为繁琐。而AI技术,尤其是深度学习的兴起,彻底改变了这一局面,它能够自动识别符合特定要求的新颖结构,推动药物研发进入更高效、创新的时代。
在深度学习驱动的从头设计里,分子生成是核心环节,常借助化学语言或基于图的模型来实现。化学语言模型把分子生成任务转化为序列生成,比如SMILES字符串形式,但它需要大量预训练,还可能产生无效的SMILES字符串。基于图的模型则将分子表示为图,通过自回归或非自回归策略生成结构,不过这两种策略分别存在产生不合理中间体和难以保证图有效性的问题。由于类药化学空间极为广阔,从头设计通常会利用基于与已知活性分子的相似性、预测生物活性等指标的评分函数优化机制,引导设计朝着目标特征发展。强化学习用于迭代优化虽有效,但设计合适的评分函数颇具挑战,因为直接量化合成可行性或类药性等目标难度较大,可能还会带来意外结果。此外,强化学习的样本效率也是个难题,主动学习或课程学习策略或许能缓解这一问题。除了引入评分函数,融入疾病相关基因表达特征、药效团、蛋白质序列或结构、结合亲和力以及蛋白质 - 配体相互作用等约束条件,也能引导模型生成理想的分子。比如PocketFlow模型,基于蛋白质口袋生成的化合物就通过了实验验证,展现出强大的药物设计能力。同时,模型还能通过将输出限制在特定的支架或片段,优化先导化合物,但这可能会限制化学多样性。
ADMET在评估药物疗效与安全性方面起着关键作用。虽然上市审批仍需湿实验评估,无法完全被模拟替代,但早期的ADMET预测有助于减少因药物特性不佳导致的研发失败。
AI已成为预测ADMET性质的重要工具,例如拜耳的计算机模拟ADMET平台运用随机森林和支持向量机等机器学习技术,借助分子指纹或描述符来保障预测的准确性和相关性。在过去几十年里,众多用于ADMET预测的描述符不断涌现,然而基于这些描述符的特征工程复杂,限制了模型的通用性和灵活性。如今,深度学习推动着ADMET预测的发展,它能从简单输入数据中自动提取有意义的特征。多种神经网络架构,如Transformer、卷积神经网络和图神经网络,在从SMILES字符串和分子图等格式的数据中模拟分子性质方面各有所长。其中,SMILES字符串能简洁地表示分子结构,但缺乏拓扑感知;图神经网络(如GeoGNN模型)因融入几何信息,在ADMET预测中表现更为出色。不过,尽管新型深度学习算法带来了进步,该领域仍面临诸多挑战。ADMET预测中标记数据稀缺,这是由于获取成本高、时间投入大,容易导致模型过拟合。无监督和自监督学习为解决这一问题提供了思路,虽然基于Transformer 的大型模型在其他领域前景良好,但在ADMET预测中的应用还需进一步探索。理解ADMET预测模型的参数有助于揭示分子子结构与性质之间的关系,注意力机制和融入化学知识虽能增强可解释性,但要全面理解化学知识仍困难重重。
化学合成是小分子药物发现的瓶颈之一,计算机辅助合成规划(CASP)和有机化合物自动合成可减轻化学家的重复性劳动负担,推动药物研发进程。随着AI的快速发展,制药行业和学术界越来越关注该过程的智能化与自动化。CASP通过逆合成分析辅助化学家确定反应路线,早期的CASP程序基于规则,如今机器学习技术尤其是深度学习模型的应用,使得人工小分子和天然产物的合成规划不断改进。例如,Transformer模型已被应用于逆合成分析、区域选择性和立体选择性预测以及反应指纹提取。但目前多数深度学习方法存在可解释性差的问题,为此新推出的RetroExplainer模型通过可解释的深度学习框架,将逆合成任务重构为分子组装过程,提升了可解释性,在性能上优于现有方法。
有机化合物的自动合成是化学相关领域的前沿方向,理想的自动合成平台应整合化学开发过程的各个环节,包括CASP、实验设置与优化以及机器人执行的化学合成、分离和纯化。目前,基于深度学习的自动化流动化学和固相合成技术在药物化合物合成中备受关注,自动合成与设计、测试、分析技术相结合,形成了药物发现的自动化核心流程——设计-制造-测试-分析(DMTA)循环。借助深度学习,DMTA循环的效率大幅提高,加速了药物研发中活性和先导化合物的发现。例如,利用基于深度学习的AI驱动DMTA平台和微流控技术,成功从头生成了肝脏X受体激动剂。此外,大语言模型(LLMs)能够理解人类自然语言,使自动化平台能根据研究人员的简洁输入提供定制解决方案。不过,自动合成和自动化DMTA循环仍处于发展初期,面临诸多技术挑战,如减少固体形成、预测溶解度、优化纯化方法和多步反应等。
在新药化合物规划和合成之后,AI技术还可助力新药作用机制的体内验证。在高内涵筛选中,AI通过监测组学数据的实时变化,概括特征并建立模型,以解读新化合物的分子和细胞作用机制,以及相关的药代动力学、药效学、毒理学和生物利用度特性。
图4:使用高含量筛选和多组学数据进行人工智能驱动的MOA预测
生物标志物在医学、生物技术和生物制药领域意义重大,可衡量生理病理过程和治疗反应。但传统基于假设驱动的发现方法效率低,难以应对疾病复杂性,存在耗时久、资源需求大、样本量有限等问题,限制其在不同人群中的广泛验证。AI技术的发展有力推动了生物标志物的发现。AI模型在识别诊断和预后生物标志物方面表现突出,前者如 “nuclei.io” 数字病理框架提高了诊断准确性和效率;后者如深度学习模型能分析多种生物样本特征,预测疾病进展和患者生存情况,为精准治疗提供依据。在药物研发中,识别预测性生物标志物对提升研究成功率很关键,虽基于AI的预测性生物标志物尚未临床应用,但概念验证研究表明AI可通过预测已知生物标志物来预测患者治疗反应。考虑到生物系统的复杂性,整合多种生物数据到AI模型有助于提升预测全面性。面对大样本标记数据稀缺问题,研究人员采用整合多源数据集、利用数字生物标志物、识别多模态生物标志物以及进行大规模安全数据收集等策略,为生物标志物发现开辟新途径。不过,AI模型在生物标志物发现中也面临挑战。数据异质性影响其向临床试验的转化效率,部分研究利用深度学习解析异质性,助力疾病亚型分类和患者分层。AI模型的可解释性和可信度对临床应用至关重要,可通过整合先验医学知识或嵌入生物关系来提高。同时,还需解决偏差问题,如多区域验证模型、开发公平算法等。可靠的验证和合理的数据管理,对促进生物标志物识别应用、推动药物研发和疾病治疗发展十分关键。
AI能有效解决药物代谢动力学问题,为时间-事件分析提供有力支持,尤其在处理高维数据和非线性关系时表现出色。在精准医疗中,AI可通过优化剂量-反应关系、改善药物安全性和明确治疗窗口,实现个性化治疗。例如,通过机器学习分析小分子激酶和不良事件,能够发现新的激酶-不良事件对,从而降低风险并开发更安全的小分子激酶抑制剂。
多组学变分自编码器(MOVE)框架可整合多组学数据,揭示药物相互作用,比如二甲双胍与肠道微生物群之间的联系,并对比不同组学模式下的药物反应。特定领域语言模型PharmBERT能够从处方标签中提取关键药代动力学信息,有助于识别不良反应和药物相互作用,进而提高药物安全性。此外,AI还能通过分析患者的遗传和生理数据,优化药物剂量,为医生提供个性化的剂量调整建议,改善治疗效果。
药物再利用是指借助AI技术,利用大规模生物医学数据集,重新挖掘已获批药物的新治疗用途,为药物研发注入新活力。AI在这一领域发挥着重要作用,它能显著缩短研发时间、降低成本。例如,在新冠疫情期间,AI加速了药物再利用的进程,为应对突发公共卫生事件提供了新的解决方案。AI进行药物再利用主要通过多种方式实现。一是利用真实世界数据(如电子健康记录、保险索赔数据等)模拟临床试验,以此挖掘潜在的药物候选物。有研究运用深度学习递归神经网络分析医疗索赔数据库,成功识别出针对冠状动脉疾病的有效药物及组合。二是将深度学习应用于组学数据,依据药物在体外诱导的转录扰动对药物进行分类,进而发现药物的新适应症。例如,有研究借助LINCS项目的扰动样本和MeSH的12个治疗类别,实现了较高的药物分类准确率,为药物重新定位提供了可能。此外,AI驱动的高内涵筛选技术也可用于药物再利用,如MitoReID深度学习模型通过线粒体表型分析来识别药物作用机制,在药物发现和再利用方面展现出良好的成本效益和高通量优势,并成功验证了表儿茶素对环氧合酶-2的抑制作用。不过,药物再利用在AI应用过程中面临诸多挑战。数据质量参差不齐,模型的可解释性、泛化能力不足,验证成本高昂,监管障碍重重,与现有研发流程难以有效整合,以及计算需求过大等问题,都限制了AI药物再利用的广泛应用和实际实施效果。
AI在临床试验中具有重要价值,能优化试验设计、加快招募进程并预测患者反应,从而提高试验效率与成功率,同时降低成本和缩短周期。例如,有先进的流程整合了多模态数据集,利用AI生成分子先导物并按疗效和安全性排序,还通过深度强化学习创造可申请专利的类似物进行测试,该流程能预测I/II期临床试验结果,提升预测准确性并识别潜在风险。
在实际研究中,AI可分析电子健康记录、保险索赔和可穿戴设备数据,评估药物有效性和安全性。如通过分析61,094名晚期肺癌患者的电子健康记录数据,发现放宽试验标准能使合格患者数量翻倍并改善生存结果,且该方法在多种癌症研究中得到验证,有助于开展更具包容性和安全性的试验。此外,Digital Twins技术可创建参与者的虚拟副本作为对照组,增加实验组参与者数量,进而提高试验效率。一些公司已开展基于Digital Twins的肺癌等疾病的临床试验模拟,该技术基于基因表达和临床数据进行计算机建模,融合深度学习和生成对抗网络,有望深化对生物机制的数学理解,推动临床实践变革和实现医疗个性化。但该技术面临高计算成本、工作流程整合困难、伦理问题和个性化程度有限等挑战,影响了患者模拟准确性、试验设计和监管认可,阻碍了创新发展。
图5:利用人工智能能力来增强临床试验过程和现实世界的医疗实践