2024年12月12日,南通大学Med-AI团队在arXiv发表了一项
基于语言模型驱动的人工智能药物设计技术方案LM-PROTAC
(Language Model-driven Proteolysis Targeting Chimera),
该方案通过语言模型驱动的分子生成,结合多维属性筛选与细胞实验验证,实现了对肿瘤关键靶点Wnt3a蛋白的降解。
LM-PROTAC能够为Fast Follow的商业模式提供片段发现,分子生成和属性预测等多个服务,从而为药物研发提供了全新研发范式。以下从技术流程以及主要的三个模块对LM-PROTAC做介绍。
LM-PROTAC建立了一套从头设计分子到实验验证的完整流程,覆盖了数据预处理、分子生成、筛选及验证的所有环节。
如图1所示,首先通过VOLT算法对分子和蛋白进行片段化处理,生成分子S-mol和蛋白S-pro片段。在此基础上,通过语言模型结合强化学习策略,生成具有潜在生物活性的小分子药物。其次,生成分子通过多维属性筛选模型进行性能优化,筛选出理化属性满足药物开发要求的候选分子。最终,通过分子动力学模拟与湿实验验证,确认生成分子的蛋白降解效果。对比传统的药物发现与设计模式,这一完整流程实现了分子设计的科学性和高效性,能够缩短药物研发的周期。
在分子生成之前,LM-PROTAC采用了FOTF-CPI模型对分子与蛋白片段的交互进行筛选。
如图2所示,该模型通过局部与全局亲和力的融合计算,从大规模数据中快速筛选出高亲和力片段对。FOTF-CPI模型的优势在于其对局部片段交互关系的精准建模,避免了传统方法对完整序列的依赖。在解决不可成药性方面,PROTAC技术能在片段接触的情况下,实现对目标蛋白的降解,通过FOTF-CPI筛选出的关键的片段,不仅提升了分子与靶点结合的可能性,同时片段作为后续PROTAC生成分子的重要构成部分,能够优化分子生成的效率。
在分子生成完成后,MDAM多维属性预测模型成为筛选候选分子的关键工具。
如图3所示,MDAM结合分子的1D、2D和3D特征,通过深度学习模型预测分子的多项属性,包括亲和力、溶解性和毒性等。通过MDAM模型,确保最终筛选出的分子既具备良好的生物活性,又符合药物开发的理化要求。MDAM模型解决了传统方法中属性筛选的分离性问题,评估PROTAC候选分子的综合性能, 使生成分子从设计到筛选形成了无缝衔接, 提高研发效率。
LM-PROTAC的高效性还体现在其紧凑的时间轴规划中。如图 4所示,在各个计算模型完成前提下,从分子设计到验证的全过程可以被精确划分4个阶段,并在50天内完成。
图4. LM-PROTAC中PROTAC分子设计与验证的时间线和工作流程
-
第0-2天:数据预处理与片段化处理,生成S-mol和S-pro片段,为后续分子与蛋白片段发现与设计提供基础数据。
-
第 3-6天:通过FOTF-CPI模型筛选高亲和力片段对,确保设计的科学性和精准性。
-
第 7-18天:使用C-Transformer生成模型生成分子。
-
第 19-21天:通过MDAM模型筛选符合要求的候选分子,通过分子动力学模拟验证候选分子的结合稳定性及自由能,初步筛选出高效分子。
-
第 22-50天:进行湿实验验证生成分子的蛋白降解效果,完成最终的分子筛选。
时间对于药物发现非常重要,尤其是在Fast Follow的模式中。LM-PROTAC时间轴展示从片段到分子时间划分与重要节点,为药物研发提供了标准化范式。