近期,ICLR 2025上发表论文:SynFlowNet: Design of Diverse and Novel Molecules with Synthesis Constraints。文章
提出了SynFlowNet,一种GFlowNet模型,其动作空间使用化学反应和可购买的反应物来逐步构建新分子
。
作者利用合成可达性评分和一个独立的逆合成工具来评估生成化合物的合成可行性,与基准相比,本文的模型在样本多样性方面取得了显著改进。此外,作者还发现了在逆向遍历MDP过程中可能出现的反应编码问题。为了解决这一问题,作者提出了多种策略来学习GFlowNet的逆向策略,并成功将附加约束集成到GFlowNet的MDP框架中。
GFlowNets是一类概率模型
,它们通过一系列动作以状态为依据的随机策略生成对象x,生成概率与奖励R(x)成正比。对象x的顺序构建可以描述为有向无环图(DAG) G=(S,E) 中的一条轨迹τ∈T,从初始状态
开
始,通过一系列动作a过渡到下一个状态:
。GFlowNet使用一个前向策略
,它是给定状态s下的子状态的分布,基于当前状态采样一系列动作。类似地,后向策略
是给定状态s下的父状态的分布,可以用于计算从终端状态到初始状态的后向动作概率。本文采用了轨迹平衡作为训练目标:
该目标用于学习由参数θ参数化的前向策略
和后向策略
,并估计分区函数
。
本文提出了一个框架,用于在由化学反应序列获得的分子构成的马尔可夫决策过程(MDP)上训练GFlowNets。
本文将合成路径建模为GFlowNet中的轨迹,从可购买的化合物开始,经过一系列允许的反应模板,最终以优化某些期望特性的分子结束。在每个时间步t,状态
表示当前分子,向环境前进是通过应用新的反应和反应物对来构建分子,直到选择终止动作或路径达到最大长度。本文使用RDKit反应SMARTS对反应模板进行编码。
1.2 前向动作空间
五种类型的前向动作:Stop, AddFirstReactant, ReactUni, ReactBi和AddReactant。每条轨迹从一个空分子图开始,从AddFirstReactant采样的构建块。根据采样的动作类型继续执行:(a)Stop,到达终端状态并结束轨迹;(b)ReactUni,对状态s中的分子应用单分子反应模板,以产生状态
中的产物;(c)ReactBi,采样的反应将与状态嵌入一起作为输入送入一个额外的MLP,以采样AddReactant类型的后续动作。
1.3 反向动作空间
GFlowNet框架能在状态空间中沿轨迹向后移动。(a)BckReactUni,直接产生反应物分子;(b)BckReactBi,获得两个反应物,不是构建块的分子成为下一个状态(或DAG中的前一个状态)。如果两个结果反应物都是构建块(这发生在前向轨迹的开始),则从两个构建块中以p = 1/2的概率选择填充下一个状态的分子。反向轨迹中的最后一个动作是BckRemoveFirstReactant,导致空分子图
(初始状态)。
1.4 掩蔽
在前向和反向方向采样动作之前,会检查反应模板与反应物或产物分子之间的子结构匹配来确保将要采样的反应和构建块与当前状态兼容,通过掩蔽强制执行在运行反向反应时至少有一个生成的反应物是构建块。
在GFlowNet文献中,标准选择的统一反向策略无法实现这一点,因为它将为每个反向动作分配正流量。为了解决这个问题,本文探讨了一些
参数化的训练方案,以迫使反向构建的轨迹以
结束。
首先探讨了一种利用前向生成轨迹来训练
的训练方案。使用在
生成的轨迹上的最大似然目标来训练
:
(1)使用PF生成轨迹,(2)根据公式1中的轨迹平衡目标更新PF,以及(3)使用这些相同的轨迹根据公式2更新
。
为了允许
禁止错误路径同时保持较高的熵,本文还探讨了使用策略梯度方法:
在这种设置中,我们不仅根据前向策略生成的轨迹训练反向策略,还根据直接从
采样的新生成反向轨迹进行训练。
为确保所有样本的合成可达性,本文的模型本质上受限于初始可用构建块(BBs)集。为了覆盖广泛的化学空间,使用广泛的BB集合至关重要。模型必须展示其可扩展性,以适应更大的BB集合,无论是在训练效率还是整体性能方面。为此,作者改变BB的表示和其选择机制。BBs相关的从隐藏单元到logits的映射权重矩阵不再是随机初始化,而是固定为二进制Morgan指纹矩阵。
(i) 基于反应的MDP显著提高了生成分子的可合成性
(ii) 使用GFlowNets能够比RL实现更为多样化的分子采样