专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
51好读  ›  专栏  ›  3D视觉之心

再次颠覆学界想象,何恺明发表新作:扩散模型不一定需要噪声条件

3D视觉之心  · 公众号  ·  · 2025-02-22 07:00

正文

机器之心报道

编辑:蛋酱、杜伟


一直以来,研究者普遍认为,去噪扩散模型要想成功运行,噪声条件是必不可少的。
而大神何恺明的一项最新研究,对这个观点提出了「质疑」。
「受图像盲去噪研究的启发,我们研究了各种基于去噪的生成模型在没有噪声调节的情况下的表现。出乎我们意料的是,大多数模型都表现出了优美的退化,它们甚至在没有噪声条件的情况下表现得更好。」

截屏2025-02-20 09.18.25.png

  • 论文标题:Is Noise Conditioning Necessary for Denoising Generative Models?

  • 论文地址:https://arxiv.org/pdf/2502.13129

研究者对这些模型在无噪声条件情况下的行为进行了理论分析。具体来说,他们研究了噪声水平分布中固有的不确定性、在没有噪声条件的情况下去噪所造成的误差以及迭代采样器中的累积误差。综合这些因素,提出了一个误差边界,该误差边界的计算无需任何训练,完全取决于噪声条件和数据集。
实验表明,这个误差边界与所研究的模型的噪声 - 无条件行为有很好的相关性,特别是在模型出现灾难性失败的情况下,其误差边界要高出几个数量级。
由于噪声 - 无条件模型很少被考虑,专门为这种未充分探索的情况设计模型是有价值的。为此,研究者从 EDM 模型中提出了一个简单的替代方案。在没有噪声条件的情况下,该变体可以实现很强的性能,在 CIFAR10 数据集上的 FID 得分达到 2.23。这一结果大大缩小了噪声 - 无条件系统与噪声 - 条件系统之间的差距(例如,EDM 的 FID 为 1.97)。
关于未来,研究者希望消除噪声条件将为基于去噪的生成模型的新进展铺平道路,激励业界重新审视相关方法的基本原理,并探索去噪生成模型领域的新方向。例如,只有在没有噪声条件的情况下,基于分数的模型才能学习到独特的分数函数,并实现经典的、基于物理学的朗格文动力学。
对于这项新研究,有人评论称:我们花了数年时间来完善噪声条件技术,到头来却发现即使没有噪声条件,模型同样能运行得很好。所以,科学其实就是利用额外数学的反复试错。

image.png

去噪生成模型的重构
研究者提出了一种可以总结各种去噪生成模型训练和采样过程的重构(reformulation),核心动机是隔离神经网络 NN_θ,从而专注于其在噪声条件方面的行为。首先来看去噪生成模型的训练目标。在训练期间,从数据分布 p (x) 中采样一个数据点 x,并从噪声分布 p (ϵ)(例如正态分布 N (0, I))中采样噪声 ϵ。噪声图像 z 由以下公式得出:
image.png
一般来说,去噪生成模型涉及最小化损失函数,该函数可以写成:

image.png
现有几种方法(iDDPM、DDIM、EDM 和 FM)的调度函数具体如下表 1 所示。值得注意的是,在研究者的重构中,他们关注的是回归目标 r 与神经网络 NN_θ 直接输出之间的关系。

image.png
其次是采样。给定训练好的 NN_θ,采样器迭代地进行去噪。具体来讲,对于初始噪声 x_0 ~  N (0, b (t_max)^2I),采样器迭代地计算如下:

image.png
最后是噪声条件网络。在现有方法中,神经网络 NN_θ(z|t) 以 t 指定的噪声水平为条件,具体可以参见图 1(左)。
同时,t-embedding 提供时间级信息作为网络额外输入。本文的研究涉及这种噪声条件的影响,即考虑了 NN_θ(z) 和 NN_θ(z|t),参见图 1(右)。

image.png
无噪声条件模型
基于上述重构,研究者对消除噪声条件的影响进行了理论分析,其中涉及到了训练目标和采样过程。他们首先分析了训练阶段的有效回归目标和单个去噪步骤中的误差,然后给出了迭代采样器中累积误差的上限。
有效目标
形式上,优化公式 (2) 中的损失等同于优化以下损失,其中预期 E [・] 中的每个项都有对应的唯一有效目标:

image.png
对于无噪声条件的有效目标,同样地,如果网络 NN_θ(z) 不接受 t 作为条件,则其唯一的有效目标 R (z) 应该仅取决于Z 在这种情况下,损失为:






请到「今天看啥」查看全文