专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
CDA数据分析师  ·  2025年AI智能体元年,数据分析师会被替代吗? ·  昨天  
CDA数据分析师  ·  【干货】5步搞定数据异常分析 ·  2 天前  
CDA数据分析师  ·  CDA数据人才能力模型与认证体系简介​ ·  昨天  
天池大数据科研平台  ·  阿里开源R1-Omni,DeepSeek同款 ... ·  2 天前  
软件定义世界(SDX)  ·  DeepSeek工业应用趋势与前瞻布局 ·  5 天前  
51好读  ›  专栏  ›  数据派THU

成功率可达100%,药物开发公司Cellarity联手英伟达,基于强化学习优化靶向分子

数据派THU  · 公众号  · 大数据  · 2025-02-05 17:00

正文

本文约4000字,建议阅读7分钟

本文介绍了种新颖的基于潜在强化学习的靶向分子优化方法 MOLRL。



来自 Cellarity 公司和英伟达的研究团队提出了一种新颖的基于潜在强化学习的靶向分子优化方法 MOLRL,在多种任务中表现出优越或具有竞争力的性能,特别是在针对性分子生成和多参数优化方面。

从古至今,人类从未停止过与疾病的抗争,一款新药的出现可能挽救成千上万的生命,甚至还会延长人类的整体寿命。

回顾百年药物研发史,其中不乏一些有趣的故事。比如在 19 世纪初,德国药剂师的助手泽尔蒂纳用热水浸泡鸦片,再以氨水抽提,从鸦片中分离出一堆白色粉末。它将这种白色粉末喂给狗,狗吃了之后很快就晕倒在地,于是他便使用希腊梦神 Morpheus 的名字将其命名为吗啡。因此,吗啡被普遍认为是世界上首个从植物体内分离出的活性成分,也被认为是现代药物创新的起点。

随后,药学家逐渐掌握了合成化学药物的技术,德国药学家塞尔曼合成了阿司匹林的前身乙酰水杨酸。20 世纪初,公司对新药的需求推动了高通量筛选技术的发展,使科学家能够以更高的效率筛选和测试大量的化合物。21 世纪初,研究人员开始探索更精确、有效的药物治疗方法,其中靶向药物成为热点研究方向。

如今,人工智能技术的飞速发展又给药物发现带来了新的可能。AI 可助力药学家更快地验证药物靶点并优化药物结构设计,甚至直接生成具有特定物理化学性质或生物活性的分子,以大大加速药物发现工作。

在此背景下,生命科学公司 Cellarity 和英伟达的研究人员共同提出了一种新颖的基于潜在强化学习的靶向分子优化方法 MOLRL,该方法将预先在大量化学数据集上训练的强大生成模型与最先进的强化学习 (RL) 算法相结合,用于连续空间优化。研究人员通过应用该方法于药物发现相关任务,使用常见基准并与最先进方法进行比较,发现 MOLRL 在多种任务中表现出优越或具有竞争力的性能,特别是在针对性分子生成和多参数优化方面。

相关成果以「Targeted Molecular Generation With Latent Reinforcement Learning」为题发布于 ChemRxiv。


论文地址: https://go.hyper.ai/H4JhR

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具: https://github.com/hyperai/awesome-ai4s

路线选择:直接修改分子 vs. 在潜在空间中操作


药物研发是一个十分复杂的过程——化合物除了具备生物活性外,还应具有多个其他特性,才能被推选为临床候选药物。而那些被识别为具有治疗活性的化合物,通常称为「候选化合物」,其结构也不是一成不变,而是会在一个漫长的迭代周期中进行修改,以解决诸如溶解度不足和活性不够等问题。

在迭代过程中,药学家通常会基于他们的直觉或通过基于反应的库进行枚举,对初始分子进行转化以设计类似物。然而,鉴于化学空间的庞大规模,即使是针对单个分子,设计也变得极为困难,需要对整个化学空间进行详尽评估。用于靶向分子生成的计算方法可以高效地探索化学空间,并为化学家们推荐那些以前未曾探索过的结构。
当前,靶向分子生成和优化方法可以分为两大类:第一类方法是直接在分子结构上进行操作,以确定能改善目标特性的结构修饰;第二类方法是在生成模型的潜在空间中操作,间接通过其潜在表示来修改分子结构。

方法一可以进行插入、删除原子或化学键的结构修改,目前业界已经取得了不少进展。

据报道,去年 11 月,韩国科学技术院 (KAIST) Yoonsu Park 教授带领的团队开发出一种创新的单原子编辑技术。该技术通过引入光催化剂,成功实现了在常温常压下对药物分子进行单原子编辑。团队开发的「分子剪刀」技术能够精准地切割并连接五元环结构,将氧原子替换为氮原子,改变分子性质并提升药物的药效。相关研究成果以 「Photocatalytic furan-to-pyrrole conversion」为题发表于 Science。


然而,随便对分子「动手术」并不是一件容易的事情。一方面,结构修改可能会违反化学规则,从而导致无效的分子结构。另一方面,由于分子结构本质上是离散的,而添加或删除化学键都涉及离散的操作,这种离散性会导致优化过程的梯度不连续,从而难以有效地应用基于梯度的方法。

与方法一相比,方法二将优化任务转化为一个连续优化问题,利用生成模型的潜在空间,并采用诸如梯度下降等连续空间优化算法。尽管如此,化学有效性仍然是一个挑战,因为不能保证潜在空间中的某一点对应一个有效的分子。然而,通过使用新颖的架构以及训练修改,生成模型在提高有效性和潜在空间的连续性方面取得了显著进展。

而在 Cellarity 公司和英伟达的研究中,研究人员提出的 MOLRL 通过使用近端策略优化 (PPO) 方法,在预训练生成模型的潜在空间中进行优化。

基于潜在强化学习的靶向分子优化方法 MOLRL


MOLRL 框架如何运作?


MOLRL 框架分为潜在空间生成模型和强化学习 (RL) 代理两部分。

生成模型是一个预训练的编码器 (Encoder)-解码器 (Decoder) 模型,其潜在空间编码了 RL 代理操作的化学空间。RL 代理使用 PPO 方法进行训练,以在潜在空间中导航;奖励函数为代理提供反馈,帮助其学习如何在空间中导航,识别具有所需属性的分子。

如下图:输入分子的潜在表示「z」通过从策略网络输出中抽取的动作「a」进行扰动。扰动后的潜在向量「z′」被解码成分子,并通过奖励函数进行评分。状态「z」、动作「a」和奖励「R」被收集用于更新策略网络。

MOLRL 方法概览

该框架与编码器和解码器的架构无关,然而,潜在空间的特性将极大地影响优化性能。因此研究人员评估了 MOLRL 在两种不同编码器-解码器架构上的性能,分别是变分自编码器 (VAE) 和基于互信息机器学习训练的自编码器 (MolMIM)。

强化学习 (RL) 代理负责在潜在空间中导航,以识别具有所需分子属性的分子。研究人员使用了 PPO,即近端策略优化算法来训练 RL 代理,PPO 算法通过优化策略来最大化长期累积奖励,从而引导代理在潜在空间中找到优化路径。奖励函数是 MOLRL 框架的核心,它根据分子的目标属性(如药物相似性、合成可达性、靶向结合等)对代理进行反馈。

MOLRL 框架性能表现如何?


为了评估 MOLRL 框架的性能,研究人员设计了多目标优化任务,并与当前的最先进优化方法进行比较。

具体来说,研究人员应用 MOLRL 生成具有生物活性的分子,针对两个靶点,同时优化药物相似性 (QED) 和合成可及性 (SA) 。所选的生物靶点是与阿尔茨海默病相关的两种激酶——GSK3β 和 JNK3。根据 Jin 等人的评估策略,研究人员记录了优化过程中生成的前 5,000 个奖励值最高的分子,并计算以下 3 个指标:成功率 (success rate);新颖性 (novelty);多样性 (diversity)。






请到「今天看啥」查看全文