专栏名称: 生物制品圈
资源分享,行业交流!
目录
相关文章推荐
BioArt  ·  Protein & ... ·  8 小时前  
生物探索  ·  Nature | ... ·  4 天前  
BioArt  ·  Nat Immunol | ... ·  3 天前  
51好读  ›  专栏  ›  生物制品圈

一文读懂:AI 为药物研发带来的颠覆性变化

生物制品圈  · 公众号  · 生物  · 2025-02-25 13:08

正文

图片 在现代医学的发展进程中,药物研发一直是一项充满挑战的艰巨任务。传统的药物研发模式依赖研发人员的经验以及大量的试错实验,不仅耗费大量的时间和资金,而且成功率相对较低。据相关研究表明,研发一种新药平均需要投入约 26 亿美元,耗时长达 12 - 15 年,然而在临床试验阶段的成功率却不足 10% 。不过,随着人工智能(AI)技术的蓬勃发展,药物研发领域正迎来前所未有的变革机遇。 今天,我们就来深入探讨 AI 在药物研发中所扮演的角色、发挥的作用,以及面临的挑战和未来发展趋势。


AI 作为一项前沿技术,涵盖了图像识别、自然语言处理(NLP)、计算机视觉等多个领域。近年来,大型语言模型(LLMs)如 ChatGPT、Gemini 以及生成式 AI 如 Sora 的出现,更是为药物研发注入了新的活力。它们凭借强大的数据处理和分析能力,在药物研发的各个环节都展现出了巨大的应用潜力。

图 1:Overview of AI applications in the drug development pipeline

一、AI 驱动药物发现


  1. 靶点识别:精准定位 “病根”
    靶点识别是药物研发的关键起始点,准确找到药物作用的靶点对于开发有效的治疗方法至关重要。传统的靶点识别方法,例如亲和拉下和全基因组敲低筛选,虽然应用广泛,但存在着时间成本高、劳动强度大以及失败率高的问题。AI 技术的出现,为靶点识别带来了新的突破。通过构建多组学数据网络,AI 能够对海量的生物数据进行深入分析,从而发现疾病相关的分子模式和因果关系,精准定位潜在的药物靶点。
    举例来说,有研究利用 NLP 技术将基因功能映射到高维空间,这种方法即使在基因功能重叠度较低的情况下,也显著提高了靶点识别的敏感度。还有研究借助图深度学习技术,结合多组学网络图和图注意力机制,成功开发出可解释的框架来预测癌症基因。另外,PandaOmics 平台通过整合多组学数据和生物网络分析,识别出 TRAF2 - 和 NCK - 相互作用激酶作为抗纤维化治疗的潜在靶点,并推动了相关抑制剂(INS018_055)的开发。然而,在这个过程中也面临着诸多挑战,比如多组学数据的高效整合难度较大,文献中可能存在的发表偏倚会影响靶点识别的准确性,同时如何确保 AI 模型的可解释性也是亟待解决的问题。

  2. 虚拟筛选:高效筛选 “潜力股”
    虚拟筛选在药物研发中起着至关重要的作用,它能够从庞大的化合物库中快速筛选出具有潜在活性的化合物,大大提高药物研发的效率。随着化合物库规模的不断扩大,传统的筛选方法逐渐难以满足需求,而 AI 技术的应用为虚拟筛选带来了革命性的变化。基于 AI 的受体 - 配体对接模型可以预测配体的空间变换,甚至能直接生成复杂原子坐标。例如,基于 AlphaFold2 和 RosettaFold 的受体 - 配体共折叠网络,能够从序列信息直接预测复杂结构。
    尽管如此,这些模型也并非完美无缺。它们可能会生成不切实际的配体构象,需要进行后处理优化。并且在口袋导向的对接任务中,深度学习模型的表现目前还不如基于物理的方法,预测精确的受体 - 配体相互作用仍然是一个具有挑战性的问题。当目标结构缺失或不完整时,基于序列的预测方法虽可作为替代,但难以准确捕捉三维蛋白质 - 配体相互作用的复杂性。对于那些缺乏明确靶点的疾病,表型 - 基于的虚拟筛选就显得尤为重要。例如,有研究利用核形态和机器学习识别出诱导癌细胞衰老的化合物,为抗生素的发现提供了新的方向。但这类模型通常依赖特定案例的表型数据,通用性较差。此外,仅依靠配体化学结构进行活性预测,还面临数据稀疏、不平衡和活性悬崖等问题。当前,开发通用的虚拟筛选模型,以及运用主动学习、贝叶斯优化等技术,结合量子力学和分子动力学模拟,成为提升虚拟筛选效率的关键。

  3. 从头设计:创造全新可能
    从头设计药物是指通过自主创造全新的化学结构,以满足特定的分子特征和治疗需求。传统的药物设计方法,如基于结构、配体或药效团的设计,往往依赖专家的经验和明确的规则,过程较为繁琐且效率不高。AI 技术的发展,尤其是深度学习的应用,使得自动化的新结构识别成为可能,为药物研发带来了创新的设计思路。在深度学习驱动的从头设计中,分子生成是核心环节,常用化学语言或基于图的模型。化学语言模型将分子生成任务转化为序列生成,例如 SMILES 字符串表示,但需要大量的预训练,并且可能会产生无效字符串。基于图的模型则把分子表示为图,通过自回归或非自回归策略生成结构,不过这两种策略都存在各自的缺陷。
    为了引导设计朝着目标特征发展,通常会引入基于与已知活性分子相似性、预测生物活性等指标的评分函数,并结合强化学习进行迭代优化。但设计合适的评分函数并非易事,直接量化合成可行性、药物相似性等目标难度较大,还可能带来一些意想不到的结果。此外,在分子生成过程中融入疾病相关基因表达特征、药效团、蛋白质序列或结构等约束条件,能更精准地生成所需分子。例如,PocketFlow 模型基于蛋白质口袋条件,成功生成了针对 HAT1 和 YTHDC1 靶点的活性化合物。然而,如何在保证生成分子质量的同时,平衡化学多样性,仍是科研人员需要攻克的难题。

    图 2:Pipeline for AI - driven molecular generation in drug discovery

  4. ADMET 预测:提前评估 “潜力”
    ADMET 性质(吸收、分布、代谢、排泄和毒性)是评估药物疗效和安全性的重要指标。虽然湿实验室评估是药物上市审批的必要环节,但早期进行 ADMET 预测可以有效减少因不良性质导致的研发失败,从而节省大量的时间和成本。AI 在 ADMET 预测方面具有独特的优势,它可以利用分子指纹或描述符等预定义特征,通过机器学习和深度学习算法预测 ADMET 性质。例如,拜耳的计算机模拟 ADMET 平台运用随机森林和支持向量机等技术,结合圆形扩展连接性指纹描述符,确保预测的准确性和相关性。
    随着深度学习的发展,ADMET 预测能够自动从简单输入数据中提取有意义的特征。各种神经网络架构,如 Transformer、卷积神经网络和图神经网络,在从 SMILES 字符串和分子图等格式中建模分子性质方面表现出色。其中,图神经网络由于融入了几何信息,在 ADMET 预测中性能更优。不过,ADMET 预测领域仍面临不少挑战,比如标记数据稀缺,容易导致模型过拟合;模型的可解释性不足,难以深入理解分子亚结构与性质之间的关系。目前,运用无监督和自监督学习方法,以及设计更有效的注意力机制和融入化学知识,成为提升 ADMET 预测水平的重要方向。

  5. 合成规划与自动化合成:加速研发进程
    化学合成是小分子药物发现的瓶颈之一,其技术要求高、劳动强度大,严重制约了药物研发的速度。计算机辅助合成规划(CASP)和有机化合物的自动合成技术,借助 AI 的力量,为化学家减轻了负担,使他们能够专注于更具创新性的工作。CASP 通过逆合成分析,将目标分子转化为更简单的前体,帮助化学家确定反应路线。早期的 CASP 程序基于规则,如今机器学习技术,特别是深度学习模型,在人工小分子和天然产物的合成规划中得到广泛应用。Transformer 模型也被应用于逆合成分析、区域选择性和立体选择性预测以及反应指纹提取等方面。但当前大多数深度学习方法缺乏可解释性,为解决这一问题,新的逆合成预测模型 RetroExplainer 应运而生,它通过可解释的深度学习框架,将逆合成任务重构为分子组装过程,提高了模型的可解释性和性能。
    有机化合物的自动化合成是化学相关领域的前沿方向。理想的自动化合成平台应整合 CASP、实验设置与优化、机器人执行化学合成、分离和纯化等各个环节。近年来,深度学习驱动的自动化流动化学和固相合成技术在药物化合物合成中备受关注。例如,利用 AI 驱动的设计 - 制造 - 测试 - 分析(DMTA)平台,结合深度学习进行分子设计和微流控芯片化学合成,成功生成了肝 X 受体激动剂。不过,自动化合成仍处于起步阶段,面临诸多技术挑战,如减少固体形成避免堵塞、预测非水溶剂和不同温度下的溶解度、优化多步反应等。

    图 3: AI - driven synthesis planning and automation in drug discovery

二、AI 在临床试验和实际医疗中的应用


  1. 生物标志物发现:疾病诊疗的 “指示灯”
    生物标志物在医学、生物技术和生物制药领域具有重要意义,可用于客观衡量和评估正常与病理过程以及对治疗的反应。传统的基于假设驱动的生物标志物发现方法效率低下,难以全面应对疾病的复杂性。AI 技术的发展为生物标志物发现带来了新机遇。AI 模型在识别诊断生物标志物方面表现出色,能为临床病理学提供预测性见解和诊断参考。例如,“nuclei.io” 数字病理学框架将主动学习与实时人机交互相结合,基于核统计数据为病理学家提供精确反馈,有效提高了诊断的准确性和效率。
    在识别预后生物标志物方面,AI 同样发挥着关键作用。深度学习模型可以通过分析血液样本中的 CD8 + T 细胞形态、细胞核特征以及蛋白质组学生物标志物等,预测疾病进展和患者生存情况,为个性化治疗提供依据。对于药物研发来说,识别预测性生物标志物能够帮助筛选最有可能从治疗中获益的患者群体,提高研究的成功率。虽然基于 AI 的预测性生物标志物尚未在临床中广泛应用,但已有概念验证研究表明其具有良好的应用前景。然而,AI 模型在生物标志物发现过程中面临数据异质性、可解释性和偏见等问题,需要通过整合多源数据、开发公平透明的算法等策略加以解决。

  2. 预测药代动力学性质:个性化治疗的 “钥匙”
    药代动力学研究药物在体内的吸收、分布、代谢和排泄过程,对于优化药物治疗方案至关重要。AI 和大数据工具的应用,为解决药代动力学问题提供了强大支持。通过分析大量的遗传和生理数据,AI 能够优化剂量 - 反应关系,改善药物安全性,细化治疗窗口,实现个性化治疗。例如,通过机器学习分析小分子激酶和不良事件数据,发现了新的激酶 - 不良事件对,有助于开发更安全的小分子激酶抑制剂。多组学变分自动编码器(MOVE)框架整合多组学数据,揭示了药物与肠道微生物群之间的相互作用。此外,特定领域的语言模型 PharmBERT 能够从处方标签中提取关键药代动力学信息,帮助识别不良反应和药物相互作用。AI 还可以根据患者的遗传信息、生理特征和过往治疗反应,为医生提供个性化的剂量调整建议,提高治疗效果。

  3. 药物重定位:挖掘旧药新价值
    药物重定位是指发现已批准药物的新治疗用途,AI 在这一领域发挥着重要作用。通过分析大规模生物医学数据集,AI 能够发现现有药物此前未被识别的治疗特性,从而加速针对各种疾病的最佳治疗方案的开发。例如,在新冠疫情期间,AI 加速了药物重定位的进程,为寻找治疗新冠的有效药物提供了帮助。
    AI 可以利用真实世界数据,如电子健康记录(EHRs)和保险索赔数据,模拟临床试验,促进药物重定位。比如,有研究运用深度学习递归神经网络分析医疗索赔数据库,成功识别出针对冠状动脉疾病的潜在药物候选物。此外,将深度学习应用于组学数据,根据药物诱导的转录扰动对药物进行分类,也为药物重定位提供了新的思路。不过,药物重定位同样面临数据质量、模型可解释性、通用性、验证成本、监管障碍等问题,这些都限制了其广泛应用和实际实施。

  4. 提高临床试验效率与预测结果:优化研发流程的 “助推器”
    临床试验往往成本高、耗时长且效率低下,AI 技术的应用有望改善这一现状。通过整合多模态数据集,AI 能够优化试验设计,如更精准地选择患者、制定更合理的治疗方案和确定更有效的结果测量指标,从而提高试验效率和成功率,降低成本和时间消耗。例如,有研究利用真实世界数据和 Trial Pathfinder 工具模拟肺癌临床试验结果,发现放宽试验标准可使符合条件的患者数量翻倍,并改善生存结果。
    数字双胞胎技术在临床试验中的应用也备受关注。它通过创建参与者的虚拟副本作为对照组,增加了实验组的参与者数量,提高了试验效率。一些公司已经开始利用数字双胞胎技术进行临床试验模拟,为药物研发提供更可靠的依据。然而,数字双胞胎技术面临计算成本高、工作流程整合困难、伦理问题和个性化程度有限等挑战,这些问题影响了患者模拟的准确性、试验设计的合理性和监管部门的接受度,需要进一步探索解决方案。

    图4:Utilizing AI capabilities to enhance both clinical trial processes and real - world medical practice

三、AI 在药物研发面临的挑战


  1. 数据困境:高质量数据稀缺
    AI 在药物研发中的应用高度依赖高质量的训练数据,但目前面临着诸多数据问题。获取数据的成本高昂,隐私法规的限制以及数据共享的不足,使得高质量数据难以收集,特别是针对罕见疾病或新型药物靶点的数据更为稀缺。此外,现有数据常常存在信息缺失、错误和偏见等问题,药物发现实验结果的不一致性以及为节省成本导致的数据不完整,都降低了 AI 模型的可靠性。而且,文献中 “阴性” 数据(如不成功的实验和阴性试验结果)的代表性不足,阻碍了对药物 - 靶点 - 疾病相互作用、疗效和其他临床特征的全面理解。

  2. 药物设计难题:多目标平衡不易
    在药物设计过程中,需要平衡多个目标以确保成功。当前的研究往往过于关注化学空间,而忽视了其他关键因素,如成药性和可合成性。虽然多目标设计方法在不断改进,但开发有效的评分函数(如用于亲和力预测和生物活性评估)仍然是一个复杂的过程,需要大量的实验探索。此外,缺乏标准化的评估流程使得模型评估变得困难,当出现相互冲突的目标时,如在追求与已知生物活性分子的最大相似性的同时实现结构新颖性,难以确定最佳的实践方案。尽管存在一些基准测试平台,但在最佳实践方面尚未达成共识。

  3. 分子表示挑战:复杂性与可合成性难兼顾
    合适的分子表示在生成模型中至关重要。传统的分子表示方法,如 SMILES 和图形,虽然应用广泛,但在捕捉分子复杂性和确保可合成性方面存在不足。新兴的数据驱动方法,如分层分子图自监督学习,为分子表示提供了新的思路,但仍需要进一步完善。目前评估合成可行性的方法不够精确,容易导致发现无法合成的分子。将反应知识整合到分子生成过程中虽有前景,但仍需改进。此外,模型的可解释性、生成新分子的不确定性和偏差等问题,也成为学术界关注的焦点,如何有效整合偏差控制与不确定性估计,是提高生成分子质量的关键。

  4. “不可成药” 靶点难题:现有方法难以攻克
    一些靶点,如某些无序蛋白质、转录因子(如 MYC 和 IRF4)和蛋白质 - 蛋白质相互作用,由于缺乏合适的结合位点,被认为是 “不可成药” 的靶点。这给 AI 在药物研发中的应用带来了挑战,现有的 AI 方法难以针对这些靶点开发有效的药物。探索新的 AI 方法和运用高内涵筛选技术,以研究这些靶点的构象空间并识别配体结合位点,成为克服这一障碍的重要研究方向。

  5. 技术与资源瓶颈:算法和计算能力受限
    许多用于药物研发的 AI 算法最初是为其他领域设计的,可能并不完全适用于药物研发的复杂场景。例如,基于 NLP 的新算法需要进一步开发,以更好地捕捉三维空间相互作用。此外,AI 方法对计算资源的高要求也成为了限制其应用的障碍,特别是对于小型研究团队来说,计算资源的不足可能导致无法开展相关研究。与云服务提供商合作以及开发更高效的算法,是解决这些技术和资源瓶颈的有效途径。同时,AI 药物研发还面临人才短缺和投资风险的问题,由于研发周期长、成功率低且回报不确定,影响了投资者的信心,制约了该领域的发展。

四、AI 在药物研发的未来方向


  1. 突破数据困境:创新数据策略
    解决数据稀缺问题是未来 AI 药物研发的首要任务。可以通过制定新的策略来加强数据共享,建立统一的数据标准,确保数据的质量和规范性。开发新的 AI 算法,如 “稀疏” AI 方法,能够在有限的数据条件下实现准确的预测。多模态预训练模型整合文本和化学信息,在零样本学习场景中具有巨大潜力,有助于更充分地利用现有数据资源。此外,整合基因组学、转录组学、疾病特异性分子途径、蛋白质相互作用和临床记录等多源数据,能够挖掘现有药物在治疗罕见病或被忽视疾病方面的潜力,为药物研发开辟新的方向。

  2. 多模态融合:挖掘数据深度价值
    目前的药物研发方法往往侧重于单一数据类型,忽略了不同生物系统之间的复杂相互关系。建立有效的多模态融合方法,能够从多样化的数据来源和格式中提取有价值的信息,推动药物研发的发展。随着大数据和 GPU 计算技术的发展,AI 可以处理包括文本、图像和视频在内的多种数据形式。基于组学数据的新兴模型,如深度学习药物分类模型,在预测药物疗效、识别作用机制和评估毒性方面展现出良好的前景,凸显了多模态 AI 在药物研发中的巨大潜力。

  3. 融入物理定律:提升模型可靠性
    当前许多 AI 模型纯粹基于数据驱动,由于高质量数据的相对匮乏,限制了其在药物研发中的有效性。药物研发遵循物理定律,将物理定律融入现有的数据驱动 AI 算法中,是未来的重要研究方向。这不仅可以减少模型对数据的依赖,还能提高模型的准确性和通用性,使 AI 模型在药物研发中更加可靠和有效。

  4. 确保合规与可解释性:构建信任基础
    AI,尤其是大型语言模型(LLMs),可以通过分析大量文档并跟踪最新法规要求,确保药物研发过程符合法规标准,提高研发效率,降低合规风险,避免药物审批延误。开发既准确又具有可解释性的 AI 模型至关重要,这有助于在药物开发者、监管机构、临床医生和患者之间建立信任。可解释的 AI 模型能够在药物研发早期优化项目资金配置,指导投资决策,加速药物研发进程。







请到「今天看啥」查看全文