传统药物研发耗时长(平均12年)、成本高(超28亿美元),且失败率高。生成式人工智能(Generative AI)通过加速分子设计、优化药效与安全性,正在改变这一局面。例如,AI模型能在21天内发现针对纤维化相关激酶的抑制剂,效率远超传统方法(图1)。
图1 | 常见的生成式模型架构:(a) 循环神经网络(RNN);(b) 变分自编码器(VAE);(c) 生成对抗网络(GAN);(d) 图神经网络(GNN);(e) 标准化流模型。
生成式AI的核心技术
1. 分子生成模型
- 变分自编码器(VAE):通过压缩分子结构到潜在空间,再解码生成新分子。例如,ChemVAE能生成具有特定溶解度或活性的化合物。
- 生成对抗网络(GAN):生成器与判别器对抗训练,提升分子真实性。如ORGAN模型成功生成针对COVID-19蛋白酶抑制剂。
- 图神经网络(GNN):直接处理分子图结构,适用于蛋白质相互作用预测(图2d)。
2. 优化技术
- 强化学习(RL):通过反馈机制优化分子属性。例如,DrugEx模型设计出针对腺苷A2A受体的高效拮抗剂。
- 迁移学习(Transfer Learning):利用预训练模型加速特定任务学习,如从通用分子库迁移到抗癌药物设计。
图2 | (a) 扩散模型通过加噪与去噪生成分子;(b) Transformer模型通过自注意力机制生成SMILES序列;(c) 结合迁移学习与强化学习的分子设计流程。
成功案例与临床进展
案例1:COVID-19药物设计
- Insilico Medicine利用GAN生成针对SARS-CoV-2主蛋白酶(Mpro)的候选分子,通过虚拟筛选获得40个潜在化合物(图3)。
- Bung团队通过RNN模型优化QED和合成可行性,筛选出31个具有高结合力的候选药物。
图3 | AMPTrans-1stm模型结合LSTM与Transformer生成新型抗菌肽,其多样性优于训练数据。案例2:JAK1激酶抑制剂
- GraphGMVAE模型生成具有新颖骨架的分子,其中一种化合物在体外实验中显示出5.0 nM的高活性(图4),验证了AI设计的可行性。
图4 | GraphGMVAE通过双消息传递网络(Dual-MPNN)实现骨架跃迁设计。
挑战与解决方案
1. 数据瓶颈
- 问题:高质量生物活性数据稀缺,公共数据库(如ChEMBL)覆盖有限。
- 对策:联邦学习(Federated Learning)实现跨机构数据协作,如MELLODDY项目联合10家药企共享加密数据。
2. 模型可解释性
- 对策:可解释AI(XAI)技术揭示关键分子特征,例如毒性基团识别。
3. 合成可行性
- 对策:集成合成路线预测工具(如RetroSyn),提前评估合成难度。
未来展望
- 跨学科合作:建立类似ImageNet的分子数据库,推动标准化评估。
- 临床验证:目前已有15款AI设计药物进入临床试验(表5),如Exscientia的DSP-1181(治疗强迫症)和Insilico的ISM001-055(抗纤维化)。
表5 | 部分AI设计药物临床阶段与靶点(示例:ISM3091为USP1抑制剂,用于癌症治疗)。