arXiv｜LM-PROTAC：语言模型驱动的PROTAC生成流程

智药邦 · 公众号 · · 2024-12-24 08:00

正文

2024年12月12日，南通大学Med-AI团队在arXiv发表了一项基于语言模型驱动的人工智能药物设计技术方案LM-PROTAC （Language Model-driven Proteolysis Targeting Chimera），该方案通过语言模型驱动的分子生成，结合多维属性筛选与细胞实验验证，实现了对肿瘤关键靶点Wnt3a蛋白的降解。

LM-PROTAC能够为Fast Follow的商业模式提供片段发现，分子生成和属性预测等多个服务，从而为药物研发提供了全新研发范式。以下从技术流程以及主要的三个模块对LM-PROTAC做介绍。

完整的生成流程：从分子设计到验证的全覆盖

LM-PROTAC建立了一套从头设计分子到实验验证的完整流程，覆盖了数据预处理、分子生成、筛选及验证的所有环节。

图1. LM-PROTAC的工作流程

如图1所示，首先通过VOLT算法对分子和蛋白进行片段化处理，生成分子S-mol和蛋白S-pro片段。在此基础上，通过语言模型结合强化学习策略，生成具有潜在生物活性的小分子药物。其次，生成分子通过多维属性筛选模型进行性能优化，筛选出理化属性满足药物开发要求的候选分子。最终，通过分子动力学模拟与湿实验验证，确认生成分子的蛋白降解效果。对比传统的药物发现与设计模式，这一完整流程实现了分子设计的科学性和高效性，能够缩短药物研发的周期。

精准筛选高亲和力片段：FOTF-CPI模型

在分子生成之前，LM-PROTAC采用了FOTF-CPI模型对分子与蛋白片段的交互进行筛选。

图2. 高亲和力片段筛选

如图2所示，该模型通过局部与全局亲和力的融合计算，从大规模数据中快速筛选出高亲和力片段对。FOTF-CPI模型的优势在于其对局部片段交互关系的精准建模，避免了传统方法对完整序列的依赖。在解决不可成药性方面，PROTAC技术能在片段接触的情况下，实现对目标蛋白的降解，通过FOTF-CPI筛选出的关键的片段，不仅提升了分子与靶点结合的可能性，同时片段作为后续PROTAC生成分子的重要构成部分，能够优化分子生成的效率。

多维属性筛选的保障：MDAM模型

在分子生成完成后，MDAM多维属性预测模型成为筛选候选分子的关键工具。

图3. 基于注意力机制的MDAM流程

如图3所示，MDAM结合分子的1D、2D和3D特征，通过深度学习模型预测分子的多项属性，包括亲和力、溶解性和毒性等。通过MDAM模型，确保最终筛选出的分子既具备良好的生物活性，又符合药物开发的理化要求。MDAM模型解决了传统方法中属性筛选的分离性问题，评估PROTAC候选分子的综合性能, 使生成分子从设计到筛选形成了无缝衔接, 提高研发效率。

时间轴：50天内完成从设计到验证

LM-PROTAC的高效性还体现在其紧凑的时间轴规划中。如图 4所示，在各个计算模型完成前提下，从分子设计到验证的全过程可以被精确划分4个阶段，并在50天内完成。

图4. LM-PROTAC中PROTAC分子设计与验证的时间线和工作流程

第0-2天：数据预处理与片段化处理，生成S-mol和S-pro片段，为后续分子与蛋白片段发现与设计提供基础数据。
第 3-6天：通过FOTF-CPI模型筛选高亲和力片段对，确保设计的科学性和精准性。
第 7-18天：使用C-Transformer生成模型生成分子。
第 19-21天：通过MDAM模型筛选符合要求的候选分子，通过分子动力学模拟验证候选分子的结合稳定性及自由能，初步筛选出高效分子。
第 22-50天：进行湿实验验证生成分子的蛋白降解效果，完成最终的分子筛选。

时间对于药物发现非常重要，尤其是在Fast Follow的模式中。LM-PROTAC时间轴展示从片段到分子时间划分与重要节点，为药物研发提供了标准化范式。

展望：生命语言模型驱动药物研发

arXiv｜LM-PROTAC：语言模型驱动的PROTAC生成流程

正文

请到「今天看啥」查看全文