专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

小白也可以清晰理解diffusion原理: DDPM

极市平台 · 公众号 · 科技自媒体 · 2024-09-28 22:00

正文

↑ 点击蓝字关注极市平台

作者丨梦想成真@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/693535104

编辑丨极市平台

极市导读

本文以易于理解的方式介绍了DDPM的基本原理，包括其前向加噪和反向去噪过程，以及如何通过最小化两个高斯分布之间的KL散度来训练模型。同时，文章还简要提及了DDIM作为DDPM的加速方法，以及如何将条件信息融入diffusion模型进行生成控制。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

前言

现在大火的stable diffusion系列，Sora，stable video diffusion等视频生成模型都是基于了diffusion模型。而diffusion模型的基石就是DDPM算法（之后有一些diffusion的加速方法，但是原理上还是DDPM），所以需要我们对DDPM有一定的了解，了解了DDPM可以帮助我们更好的理解diffusion模型。

DDPM全称是Denoising Diffusion Probabilistic Models，最开始提出是用于去噪领域。原始论文中数学公式比较多，需要一定的数理基础。

https://arxiv.org/pdf/2006.11239.pdf

实际上，DDPM也没那么复杂，我们两个层面上理解下DDPM的过程，分别是基于vae和基于傅立叶变换。 下文中diffusion默认指代的是DDPM文中的diffusion model。

首先，我们可以简单对比下vae和diffusion的推理过程

vae 把图像可学习的方式压缩到一个latent space
diffusion 把图像通过n step 压缩成噪声，噪声再通过n step 去噪成图像

不同于vae encoder/decoder的叫法， diffusion 的两个过程称为前向过程（加噪）和反向过程（去噪），这两个过程的中间态是一个和输入图像相同尺寸的高斯噪声。 而vae是通过数据驱动的方式压缩到一个一维隐空间，这个隐空间也是一个高斯分布，并且不需要n step，而是只需要 1 step。

那其实主观上，可能我们觉得vae多直接啊，而且非常优雅！为啥不用vae？确实，生成模型用了很长时间vae，最后gan变成主流，现在是diffusion。 生成模型越来越复杂了。 为什么越来越复杂大家还要用？最简单的解释就是，diffusion虽然很麻烦，但是效果好啊，架不住可以新发（水）几篇paper啊 ️。了解光流的同学一定听过RAFT等一个网络不够，我就cascade（级联）多个网络去学习的范式，diffusion也是类似的想法，但是这里并不是简单的把级联， diffusion建模的是信号本身的restoration，意味着diffusion这套建模可以用到1维分布、2维分布、一直到N维分布都可以。 这非常重要，接下来我们从第二个点进一步了解。

第二，我们可以通过傅立叶变换的思路去理解diffuison。不了解傅立叶变化的我简单说下，就是用一系列不同频率的余弦函数我们可以逼近任意的时域分布。

我们看最右边蓝色时域分布是一个非常奇怪的分布，实际上可以在频域拆解成若干不同频率的余弦去表达。 那么理论上，余弦可以表达任意分布！

我们学过中心极限定理：无论原始数据的分布如何，只要样本量足够大，这些样本均值的分布将近似为正态分布。我们再回过头看看，为什么我们能从一个高斯分布，通过diffusion model 还原出clear image，甚至是segmentation mask，depth等等表达，都是因为我们的源头是一个包含了所有可能分布的总和啊！