专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
科研大匠  ·  中国地大最新Science:博士生一作,填补 ... ·  3 天前  
科研大匠  ·  暂时不敢用deepseek写文章了 ·  3 天前  
募格学术  ·  军队文职!安家费45-55万,年薪30-10 ... ·  2 天前  
PaperWeekly  ·  SIGIR 2025 ... ·  5 天前  
51好读  ›  专栏  ›  PaperWeekly

ICLR 2025 | TUM、北大联合提出ConFIG:迈向无冲突训练的逆梯度方法

PaperWeekly  · 公众号  · 科研  · 2025-03-17 13:31

正文

图片

© 作者 | 刘强、楚梦渝

单位 | 慕尼黑工业大学、北京大学

研究方向 | 深度学习



在深度学习的多个应用场景中,联合优化多个损失项是一个普遍的问题。典型的例子包括物理信息神经网络(Physics-Informed Neural Networks, PINNs)、多任务学习(Multi-Task Learning, MTL)和连续学习(Continual Learning, CL)。然而,不同损失项的梯度方向往往 相互冲突 ,导致优化过程陷入局部最优甚至训练失败。

目前,主流的方法通常通过调整损失权重来缓解冲突。例如在物理信息神经网络中,许多研究从数值刚度、损失的收敛速度差异和神经网络的初始化角度提出了许多权重方法。然而,尽管这些方法声称具有更高的解的精度,但目前对于最优的加权策略尚无共识。

针对这一问题,来自慕尼黑工业大学和北京大学的联合研究团队提出了 ConFIG(Conflict-Free Inverse Gradients,无冲突逆梯度)方法 ,为多损失项优化提供了一种稳定、高效的优化策略。ConFIG 提供了一种优化梯度 ,能够防止由于冲突导致优化陷入某个特定损失项的局部最小值。ConFIG 方法可以在数学上证明其收敛特性并具有以下特点:
  • 最终更新梯度 与所有损失项的优化梯度均 不冲突

  • 在每个特定损失梯度上的投影长度是均匀的,可以确保所有损失项以 相同速率 进行优化。

  • 长度可以根据损失项之间的冲突程度 自适应 调整。


此外,ConFIG 方法还引入了一种基于 动量 的变种。通过计算并缓存每个损失项梯度的动量,可以避免在每次训练迭代中计算所有损失项的梯度。结果表明,基于动量的 ConFIG 方法在显著降低训练成本的同时保证了优化的精度。

想深入了解 ConFIG 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!

论文标题

ConFIG: Towards Conflict-free Training of Physics Informed Neural Networks

论文链接

https://arxiv.org/abs/2408.11104

代码链接

https://github.com/tum-pbs/ConFIG

项目主页
https://tum-pbs.github.io/ConFIG/


图片

ConFIG: 无冲突逆梯度方法

目标: 给定 个损失函数 ,其对应梯度为 。我们希望找到一个优化方向 ,使其满足: 。即所有损失项在该方向上都能减少,从而避免梯度冲突。
无冲突优化区间
假设存在一个无冲突更新梯度,我们可以引入一个新的矢量 。由于 是一个无冲突梯度, 应为一个正向分量矢量。同样地,我们也可以预先定义一个正向分量矢量 ,然后直接通过矩阵的逆运算求得无冲突更新梯度 ,即 。通过给定不同的正向分量矢量 ,我们得到由一系列不同 组成的无冲突优化区间。
确定唯一优化梯度
尽管通过简单求逆可以获得一个无冲突更新区间,我们需要进一步确定唯一的无冲突梯度用于优化。在 ConFIG 方法中,我们从方向和幅度两个方面进一步限定了最终用于优化更新的梯度:
具体优化方向 相比于直接求解梯度矩阵的逆,ConFIG 方法求解了 归一化梯度矩阵的逆 ,即 ,其中 表示第 个梯度向量的单位向量。

可以证明,变换后 矢量的每个分量代表了每个梯度 与最终更新梯度 之间的余弦相似度。因此,通过设定 分量的不同值可以直接控制最终更新梯度对于每个损失梯度的优化速率。在 ConFIG 中, 被设定为单位矢量以确保每个损失具有相同的优化强度从而避免某些损失项的优化被忽略。
优化梯度大小 此外,ConFIG 方法还根据梯度冲突程度调整步长。当梯度方向较一致时,加快更新;当梯度冲突严重时,减小更新幅度: , 其中 为每个梯度与最终更新方向之间的余弦相似度。
ConFIG 方法获得最终无冲突优化方向的计算过程可以总结为:
论文中给出了上述 ConFIG 更新收敛性的严格证明。 同时,我们还可以证明只要参数空间的维度大于损失项的个数,ConFIG 运算中的逆运算总是可行的。
M-ConFIG: 结合动量加速训练
ConFIG 方法引入了矩阵的逆运算,这将带来额外的计算成本。然而与计算每个损失的梯度带来的计算成本,其并不显著。在包括 ConFIG 在内的基于梯度的方法中,总是需要额外的反向传播步骤获得每个梯度相对于训练参数的梯度。这使得基于梯度的方法的计算成本显著高于标准优化过程和基于权重的方法。
为此,我们引入了 M-ConFIG 方法,使用动量加速优化:
  • 使用梯度的 动量 (指数移动平均)代替梯度进行 ConFIG 运算。

  • 在每次优化迭代中,仅对 一个或部分 损失进行反向传播以更新动量。其它损失项的动量采用之前迭代步的历史值。

在实际应用中,M-ConFIG 的计算成本往往 低于 标准更新过程或基于权重的方法。这是由于反向传播一个子损失 往往要比反向传播总损失 更快。这在物理信息神经网络中尤为明显,因为边界上的采样点通常远少于计算域内的采样点。在我们的实际测试中,M-ConFIG 的平均计算成本为基于权重方法的 0.56 倍。

图片

结果:更快的收敛,更优的预测

物理信息神经网络
在物理信息神经网络中,用神经网络的自动微分来近似偏微分方程的时空间导数。偏微分方程的残差项与边界条件和初始条件被视作不同的损失项在训练过程中进行联合优化。我们在多个经典的物理神经信息网络中测试了 ConFIG 方法的表现。
结果显示,在相同训练迭代次数下,ConFIG 方法是唯一一个相比于标准 Adam 方法始终获得正向提升的方法。对每个损失项变化的单独分析表明,ConFIG 方法在略微提高 PDE 训练残差 的同时大幅降低了边界和初始条件损失 ,实现了 PDE 训练精度的 整体提升






请到「今天看啥」查看全文