-
靶点识别:精准定位 “病根”
靶点识别是药物研发的关键起始点,准确找到药物作用的靶点对于开发有效的治疗方法至关重要。传统的靶点识别方法,例如亲和拉下和全基因组敲低筛选,虽然应用广泛,但存在着时间成本高、劳动强度大以及失败率高的问题。AI 技术的出现,为靶点识别带来了新的突破。通过构建多组学数据网络,AI 能够对海量的生物数据进行深入分析,从而发现疾病相关的分子模式和因果关系,精准定位潜在的药物靶点。
举例来说,有研究利用 NLP 技术将基因功能映射到高维空间,这种方法即使在基因功能重叠度较低的情况下,也显著提高了靶点识别的敏感度。还有研究借助图深度学习技术,结合多组学网络图和图注意力机制,成功开发出可解释的框架来预测癌症基因。另外,PandaOmics 平台通过整合多组学数据和生物网络分析,识别出 TRAF2 - 和 NCK - 相互作用激酶作为抗纤维化治疗的潜在靶点,并推动了相关抑制剂(INS018_055)的开发。然而,在这个过程中也面临着诸多挑战,比如多组学数据的高效整合难度较大,文献中可能存在的发表偏倚会影响靶点识别的准确性,同时如何确保 AI 模型的可解释性也是亟待解决的问题。
-
虚拟筛选:高效筛选 “潜力股”
虚拟筛选在药物研发中起着至关重要的作用,它能够从庞大的化合物库中快速筛选出具有潜在活性的化合物,大大提高药物研发的效率。随着化合物库规模的不断扩大,传统的筛选方法逐渐难以满足需求,而 AI 技术的应用为虚拟筛选带来了革命性的变化。基于 AI 的受体 - 配体对接模型可以预测配体的空间变换,甚至能直接生成复杂原子坐标。例如,基于 AlphaFold2 和 RosettaFold 的受体 - 配体共折叠网络,能够从序列信息直接预测复杂结构。
尽管如此,这些模型也并非完美无缺。它们可能会生成不切实际的配体构象,需要进行后处理优化。并且在口袋导向的对接任务中,深度学习模型的表现目前还不如基于物理的方法,预测精确的受体 - 配体相互作用仍然是一个具有挑战性的问题。当目标结构缺失或不完整时,基于序列的预测方法虽可作为替代,但难以准确捕捉三维蛋白质 - 配体相互作用的复杂性。对于那些缺乏明确靶点的疾病,表型 - 基于的虚拟筛选就显得尤为重要。例如,有研究利用核形态和机器学习识别出诱导癌细胞衰老的化合物,为抗生素的发现提供了新的方向。但这类模型通常依赖特定案例的表型数据,通用性较差。此外,仅依靠配体化学结构进行活性预测,还面临数据稀疏、不平衡和活性悬崖等问题。当前,开发通用的虚拟筛选模型,以及运用主动学习、贝叶斯优化等技术,结合量子力学和分子动力学模拟,成为提升虚拟筛选效率的关键。
-
从头设计:创造全新可能
从头设计药物是指通过自主创造全新的化学结构,以满足特定的分子特征和治疗需求。传统的药物设计方法,如基于结构、配体或药效团的设计,往往依赖专家的经验和明确的规则,过程较为繁琐且效率不高。AI 技术的发展,尤其是深度学习的应用,使得自动化的新结构识别成为可能,为药物研发带来了创新的设计思路。在深度学习驱动的从头设计中,分子生成是核心环节,常用化学语言或基于图的模型。化学语言模型将分子生成任务转化为序列生成,例如 SMILES 字符串表示,但需要大量的预训练,并且可能会产生无效字符串。基于图的模型则把分子表示为图,通过自回归或非自回归策略生成结构,不过这两种策略都存在各自的缺陷。
为了引导设计朝着目标特征发展,通常会引入基于与已知活性分子相似性、预测生物活性等指标的评分函数,并结合强化学习进行迭代优化。但设计合适的评分函数并非易事,直接量化合成可行性、药物相似性等目标难度较大,还可能带来一些意想不到的结果。此外,在分子生成过程中融入疾病相关基因表达特征、药效团、蛋白质序列或结构等约束条件,能更精准地生成所需分子。例如,PocketFlow 模型基于蛋白质口袋条件,成功生成了针对 HAT1 和 YTHDC1 靶点的活性化合物。然而,如何在保证生成分子质量的同时,平衡化学多样性,仍是科研人员需要攻克的难题。
图 2:Pipeline for AI - driven molecular generation in drug discovery
-
ADMET 预测:提前评估 “潜力”
ADMET 性质(吸收、分布、代谢、排泄和毒性)是评估药物疗效和安全性的重要指标。虽然湿实验室评估是药物上市审批的必要环节,但早期进行 ADMET 预测可以有效减少因不良性质导致的研发失败,从而节省大量的时间和成本。AI 在 ADMET 预测方面具有独特的优势,它可以利用分子指纹或描述符等预定义特征,通过机器学习和深度学习算法预测 ADMET 性质。例如,拜耳的计算机模拟 ADMET 平台运用随机森林和支持向量机等技术,结合圆形扩展连接性指纹描述符,确保预测的准确性和相关性。
随着深度学习的发展,ADMET 预测能够自动从简单输入数据中提取有意义的特征。各种神经网络架构,如 Transformer、卷积神经网络和图神经网络,在从 SMILES 字符串和分子图等格式中建模分子性质方面表现出色。其中,图神经网络由于融入了几何信息,在 ADMET 预测中性能更优。不过,ADMET 预测领域仍面临不少挑战,比如标记数据稀缺,容易导致模型过拟合;模型的可解释性不足,难以深入理解分子亚结构与性质之间的关系。目前,运用无监督和自监督学习方法,以及设计更有效的注意力机制和融入化学知识,成为提升 ADMET 预测水平的重要方向。
-
合成规划与自动化合成:加速研发进程
化学合成是小分子药物发现的瓶颈之一,其技术要求高、劳动强度大,严重制约了药物研发的速度。计算机辅助合成规划(CASP)和有机化合物的自动合成技术,借助 AI 的力量,为化学家减轻了负担,使他们能够专注于更具创新性的工作。CASP 通过逆合成分析,将目标分子转化为更简单的前体,帮助化学家确定反应路线。早期的 CASP 程序基于规则,如今机器学习技术,特别是深度学习模型,在人工小分子和天然产物的合成规划中得到广泛应用。Transformer 模型也被应用于逆合成分析、区域选择性和立体选择性预测以及反应指纹提取等方面。但当前大多数深度学习方法缺乏可解释性,为解决这一问题,新的逆合成预测模型 RetroExplainer 应运而生,它通过可解释的深度学习框架,将逆合成任务重构为分子组装过程,提高了模型的可解释性和性能。
有机化合物的自动化合成是化学相关领域的前沿方向。理想的自动化合成平台应整合 CASP、实验设置与优化、机器人执行化学合成、分离和纯化等各个环节。近年来,深度学习驱动的自动化流动化学和固相合成技术在药物化合物合成中备受关注。例如,利用 AI 驱动的设计 - 制造 - 测试 - 分析(DMTA)平台,结合深度学习进行分子设计和微流控芯片化学合成,成功生成了肝 X 受体激动剂。不过,自动化合成仍处于起步阶段,面临诸多技术挑战,如减少固体形成避免堵塞、预测非水溶剂和不同温度下的溶解度、优化多步反应等。
图 3:
AI - driven synthesis planning and automation in drug discovery