专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

【讲座图文版】清华大学朱军教授：使用扩散模型生成高维数据

AI TIME 论道 · 公众号 · · 2024-06-18 18:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

大纲

开场介绍

AI Time 2024 ICML预讲会介绍
嘉宾介绍：朱军教授

主题分享

生成式模型的基本概念
生成式模型的历史与现状
生成式模型的应用场景
生成式模型的优势与挑战
扩散模型的基本原理
扩散模型的应用案例
扩散模型的优化与改进
扩散模型的未来发展方向

答疑环节

网友提问与朱军教授的回答

内容总结

一句话总结

朱军教授分享了关于使用扩散模型生成高维数据的研究进展，并探讨了扩散模型在生成任务之外的其他应用。

关键内容总结

生成式模型与判别式模型的比较。
扩散模型的基本原理和应用。
扩散模型的优化与改进。
扩散模型的未来发展方向。

金句摘抄

"生成式模型的核心目标是建模多变量的联合分布，例如在无监督学习中是P(X)，在有监督学习中是P(X,Y)。"
"扩散模型的底层架构，由于其本质是加噪去噪过程，因此在之前的许多研究中，研究者们倾向于采用UNet架构作为图像去噪模型的主干网络。"
"生成式模型通常学习速度更快，意味着在较少的数据量下即可达到接近最优的性能。"

自问自答

生成式模型与判别式模型有什么区别？

生成式模型学习联合分布，判别式模型学习条件分布。

扩散模型的基本原理是什么？

扩散模型通过学习一个参数化的模型分布来逼近实际的数据分布。

扩散模型有哪些应用场景？

扩散模型可以用于生成图像、视频、3D模型等多种高维数据。

扩散模型的未来发展方向是什么？

扩散模型可能会在生成质量、计算效率、多模态生成等方面进行优化和改进。

扩散模型与传统生成模型（如VAEs）有什么不同？

扩散模型通过学习逆向的去噪过程来生成数据，而传统生成模型（如VAEs）需要学习编码器和解码器。

关键词标签

生成式模型
扩散模型
深度学习
图像生成
视频生成
3D模型生成

适合阅读人群

机器学习研究人员
深度学习爱好者
图像处理工程师
视频处理工程师

术语解释

生成式模型：学习数据分布，并从中生成新数据的模型。
判别式模型：学习数据与标签之间的关系，并用于分类或回归任务的模型。
扩散模型：通过学习加噪过程和去噪过程来生成数据的模型。
变分自编码器（VAEs）：学习数据分布并从中生成数据的模型，需要学习编码器和解码器。
贝叶斯优化：一种优化算法，通过考虑概率分布来寻找最优解。

讲座链接：https://www.bilibili.com/video/BV14f421X7Sh

由于本人专业水平有限，文中可能出现的专业名词、人名等没有校对正确，为避免误导，请您联系我不吝指出，非常感谢！

讲座回顾

好的，我们准备开始，有请何老师。AITIME论道的线上观众们，大家早上好。

ICML预讲会于6月4日开启，为期两天。
已有70多位海内外学者和讲者报名参与，报名仍在进行中。
参与者包括中国及海外高校实验室的研究人员和优秀论文的第一作者。
邀请了清华大学的朱军教授进行分享，其团队最近发布的视频模型备受关注。
分享后可能会有答疑环节，但受时间限制，将挑选部分问题进行Q&A。

我们非常高兴大家能参加AI Time。今年的ICML预讲会于6月4日正式开启，将持续两天。截至目前，已有70多位海内外学者和讲者报名参与，报名仍在进行中。参与者包括来自中国及海外高校实验室的研究人员，以及优秀论文的第一作者。希望大家能持续关注直播间，聆听分享。我们很荣幸能提供这样一个平台，让全球顶尖会议的华人第一作者在AI Time进行交流。今天，我们非常荣幸地邀请到了清华大学的朱军教授。朱教授无需过多介绍，他的人气非常高，其团队最近发布的视频模型也备受关注。接下来，我们将时间交给朱教授，之后可能会有答疑环节，但由于时间限制，我们将挑选部分问题进行Q&A。非常欢迎大家，也非常荣幸能邀请到朱教授。

感谢何云老师的邀请和介绍。今天很荣幸与大家分享，主题为使用扩散模型生成高维数据，并简要探讨扩散模型在生成任务之外的其他应用。这是本次分享的主要内容。背景是当前讨论的生成式模型。

生成式模型是一种与传统判别式方法不同的模型范式。
生成式模型的目标是学习一个参数化的模型分布，以逼近实际的数据分布。
通过估计散度来衡量模型分布与数据分布之间的接近程度。
数据分布实际上是通过逼近一个经验分布来实现的。

在生成模型的研究中，我们通常称之为生成式模型。与传统的判别式方法相比，生成式模型有着不同的范式。在生成式建模中，我们通常观察到一组训练数据，并假设存在一个未知的数据分布。我们的目标是通过学习一个参数化的模型分布来逼近实际的数据分布。为此，我们通过估计一个散度来衡量模型分布与数据分布之间的接近程度。对于数据分布，我们实际上是逼近了一个经验分布。这是生成式模型的基本范式。在机器学习领域，我们经常探讨这一概念。

Mixture of Gaussian的早期工作主要用于无监督学习中的去噪任务。
有监督学习中常用朴素贝叶斯模型来构建类别和数据的分布，进而生成分类器。
MOE（Mixture of Experts）方法可根据专家定义进行无监督或有监督学习。
概率图模型如BSNet和Energy Based Model定义了生成式模型。
非参数贝叶斯方法和深度生成模型也是机器学习领域的重要研究方向。

比较经典的和近期的一些例子，例如早期的Mixture of Gaussian，用于无监督学习，特别是在处理去噪任务中。此外，在有监督学习中，我们使用朴素贝叶斯模型来构建类别和数据的分布，通过这种分布来获得分类器。还包括像MOE（Mixture of Experts）这样的方法，它可以根据专家的定义进行无监督或有监督学习。更广泛的例子如概率图模型，特别是如BSNet和Energy Based Model等，它们定义了生成式模型。还包括非参数贝叶斯方法，以及今天将讨论的深度生成模型。这些都是在机器学习领域中一直存在的研究方向，我们之所以关注它们，是因为它们的重要性。

生成式模型在机器学习领域的重要性：生成式模型能够建模多变量的联合分布，如P(X)或P(X,Y)，这使得它们在预测和条件预测等任务中非常有用。
生成式模型的应用：生成式模型可以用于合成数据生成、环境生成、提高数据利用率，以及在半监督或小样本学习中减少对标签数据的依赖。
生成式模型在强化学习中的应用：用于行为建模。
生成式模型受到关注的四个原因：模型的表达能力增强、高效的算法、可利用大规模数据、计算能力的提升。

特别是现在,在机器学习领域,生成式模型已经成为一个非常重要的研究课题。从生成式模型的本质来看,它本身具有构建基础模型的潜力。生成模型的核心目标是建模多变量的联合分布,例如在无监督学习中是P(X),在有监督学习中是P(X,Y)。如果知道一个联合分布,就可以获取所有相关变量的任意信息,用于预测或条件预测等任务。因此,如果能有效估计联合分布,就具备了构建基础模型的基础,可以完成许多任务。这也是我们关注生成式模型的原因。在实际应用中,生成式模型可以赋能许多任务,如合成数据或环境生成。如果建模XY联合分布,还可以从中得到分离器,提高数据利用率。在半监督或小样本学习场景中,拥有联合分布可以降低对标签数据的依赖。此外,生成式模型还可以用于强化学习中的行为建模。

生成式模型之所以受到关注,可能有四个原因:一是模型的表达能力增强,尤其是深度生成模型,可以利用神经网络拟合复杂函数关系,有效描述高维数据的复杂分布;二是高效的算法,如变分法和MCMC等方法在机器学习领域已有多年研究基础;三是可利用大规模数据,得益于生成式范式,可以采用无监督或自监督学习方法利用大量数据;四是计算能力的提升,GPU加速了所有设计的实现。模型的表达能力增强是首要原因,需要更高效的算法和更大的计算资源,同时对数据的消耗也更大。

深度生成模型的目标是学习变量间的变换，将标准高斯噪声转换为自然场景图片的真实分布。
使用可微分的神经网络作为变换器的范式已被证明非常有效，能在无监督情况下实现高质量训练和生成。
模型效果取决于变量X的密度函数是显式还是隐式定义的。
模型分为显式模型（如变分自编码器、流模型、扩散模型）和隐式模型。
隐式模型需要通过特定准则（如运动匹配）引导学习，以匹配数据分布。

特别是使用可微分的神经网络作为变换器的范式。这张图简单总结了在深度生成模型中，我们旨在学习变量之间的变换。我们希望将标准高斯噪声转换为自然场景图片的真实分布。这种范式已被证明非常有效，我们可以在完全无监督的情况下实现高质量的训练和生成。从模型角度来看，其效果大致取决于变量X的密度函数是显式还是隐式定义的。我们将模型大致分为两类：一类是显式模型，可以明确写出X的密度或条件密度，包括变分自编码器、流模型和扩散模型等；另一类是隐式模型，这在统计学或数学中已有广泛研究，主要描述了从初始条件或边界条件生成数据的过程。从模型中得到的是模型产生的数据，需要通过特定准则引导模型学习，以达到与数据分布匹配的目标。这包括运动匹配等方法，用于训练隐式模型。这张图也大致总结了这些内容。

深度生成模型主要从两个角度进行分类：概率密度函数的定义和训练准则。
概率密度函数定义上分为隐式和显式两种。
训练准则上包括最大似然估计、得分匹配和对抗训练。
文章将重点介绍扩散模型及其在高维空间数据生成中的应用。

这就是目前代表性的深度生成模型的大致分类情况。从两个角度来看，一是从概率密度函数的定义上，分为隐式和显式两种，前面已经提到过。二是从训练准则上来看，我们有许多基于最大似然估计的方法，也有基于得分匹配和对抗训练的方法。接下来，我将重点介绍扩散模型及其在生成高维空间数据中的应用。扩散模型的例子可以直观地进行形象化理解。

物理学中的扩散过程是从高度聚集的有序状态转变为无序状态。
生成模型中期望实现从无序到有序的逆过程。
逆过程可以被形式化地描述。

在物理学中，扩散过程是一个常见的现象，例如墨汁滴入水中会逐渐扩散开来。这一过程从高度聚集的结构状态转变为无序状态。然而，在生成模型中，我们期望实现相反的过程，即从无序状态逐步演化至有序结构，这一过程被称为逆过程。该逆过程可以被形式化地描述出来。

扩散概率模型包含前向扩散过程，通过逐渐增加高斯噪声使信噪比下降，最终收敛至标准高斯分布。
前向过程的联合分布可以明确写出，每步噪声由给定的均值和方差参数确定。
生成模型关注的是逆过程，即从高噪声状态逐步还原至高质量图片。
逆过程的关键是去噪模型，即从高噪声到低噪声的转移概率。
机器学习中通过变分推断等方法估计逆过程的分布，通过最小化KL散度实现学习。

现在广泛关注的扩散概率模型，其实质可以描述为，借用宋朗的图例，它包含一个前向扩散过程，该过程可视为逐渐增加噪声的过程。例如，从原始图片开始，逐渐加入高斯噪声，其均值和方差满足特定条件，导致信噪比逐渐下降。当加噪步骤足够多时，最终会收敛至标准高斯分布。这一过程在Wikipedia中有所描述，其联合分布可被明确写出，这是前向过程的特点。每一步的噪声在给定均值和方差参数后即被确定。在生成模型中，我们希望学习的是逆过程，即红色箭头所示，从高噪声状态逐步还原，最终生成高质量图片。这一过程的联合分布可反向表示，关键在于去噪模型，即从高噪声状态到低噪声状态的转移概率，这是我们需要学习的。在机器学习领域，估计这一分布有多种方法，如使用变分推断，假设某一变分分布（如高斯分布），其均值为状态函数，方差为某一常数，通过最小化KL散度等方法实现学习。这是扩散模型中主要学习的关键量。

扩散模型因其原理简洁而受到广泛关注。
扩散模型不需要学习编码器，只需学习逆向去噪过程。
与VAEs相比，扩散模型简化了目标函数，通常为MSE优化问题。
使用高斯噪声的扩散模型在长时间去噪后能收敛于高斯分布，得到良好近似结果。
扩散模型在生成任务中表现出色，是其受欢迎的重要原因。

扩散模型之所以受到广泛关注和应用，主要是因为其在原理上相对简洁。在扩散模型中，我们不需要学习从输入到隐含状态的编码器，因为前向扩散过程是预设的，我们只需学习逆向的去噪过程。这与变分自编码器（VAEs）不同，后者需要学习编码器和解码器。在扩散模型中，如果我们选择高斯噪声，目标函数通常可以简化为均方误差（MSE）优化问题，使得目标函数相对简洁，转化为回归问题，求解也相对容易。此外，当去噪时间足够长时，逆向过程会收敛于高斯分布，这意味着使用高斯噪声的假设不会导致糟糕的结果，反而能得到较好的近似结果。最后，扩散模型在许多场景下的生成效果非常突出，这也是其受到关注的重要原因。当然，还有许多基础工作需要进一步研究。

宋扬的工作将扩散过程推广到连续时间，涉及随机微分方程（SDE）的应用。
描述了前向随机微分方程和逆向SDE，后者用于从噪声到数据的演化。
强调了边际分布的得分函数的重要性，它是每个时刻的关键参数。
提出通过估计得分函数并解逆向SDE来实现图像生成的框架。

比如像宋扬的一项重要工作，它可以将扩散过程推广到连续时间。当噪声添加步骤趋于无穷时，实际上这本身就变成了一个随机微分方程的描述。这是一个前向随机微分方程。同样，它也有一个逆向的SDE，即从噪声到数据的演化过程。这里蓝色标出的是边际分布的得分函数，即每个时刻的得分函数。换句话说，在这种框架下，只需估计出得分函数，然后解逆向的SDE，就可以实现图像生成。这是其在连续时间下的原理，当然它还可以等价描述。

讨论了在保持边缘分布不变的情况下，扩散随机微分方程（SDE）可以等价于常微分方程（ODE）。
提到了SDE和ODE都有各自的求解方法，如DDPM和DDIM。
分享内容将集中在两个方面：扩散模型的大规模训练和高效算法在生成高维数据中的应用。

如果在保持边缘分布不变的情况下进行变化，例如扩散SDE可以等价于ODE。对于SDE和ODE，都有相应的求解方法。之前的方法如DDPM和DDIM等用于求解。接下来，我将主要分享两部分内容。由于时间有限，我将快速介绍一些相关进展。首先，我们关注的是扩散模型的大规模训练，以及高效算法在生成高维数据中的应用。在此，我将重点强调这些内容。

研究关注扩散模型的估计问题，通过Q分布近似目标分布，最小化KL散度。
传统方法固定方差参数，而本研究直接优化原始问题，得到均值和方差的解析形式。
开发了一个无需额外训练的最终方差估计器，通过简单代码插入即可使用。
该方法提高了方差估计的准确性，减少了迭代次数，提升了数据生成质量。
性能提升显著，达到20到80倍，已被应用于实际系统如大地图。

比如说，早期的一项工作是关于扩散模型（Diffuse Model）的估计问题。我们旨在通过一个Q分布来近似目标分布，通过最小化KL散度实现。在以往的方法中，通常会固定方差参数而不进行优化。然而，我们发现，如果直接优化原始问题，可以得到均值函数和方差的解析形式，这种形式与之前学者手工设计的方法相吻合。同时，我们得到了一个关键的最终方差估计器，该估计器无需额外训练。在预训练的扩散模型中，只需插入一行代码即可获得最终方差的估计。这带来的好处是，每一步的方差估计更为准确，直接结果是能够以更少的迭代次数生成高质量数据。最终，我们实现了20到80倍的性能提升。这项工作在2022年是一个显著的进展，并已被应用于如大地图等系统中。

也使用了扩散模型来加速和生成高质量的图像。此外，还涉及了相关的内容。

介绍了一种名为DPM Solver的扩散模型优化工具，用于改进图像生成过程。
推出了DPM Solver的两个升级版本：DPM Solver++和V3。
这些版本旨在创建一种Trendy Free的Definition ODE求解器。
与传统的EGA方法相比，DPM Solver能在十余步内生成高质量图片，而EGA可能需要几十到三百步。
V3版本进一步提升了生成效果。

实际上，第二个工作也是为了求解这些问题。这就是一个扩散模型优化其生成过程的工作，称为DPM Solver。随后推出了两个版本，DPM Solver++和V3，旨在设计一种Trendy Free的Definition ODE求解器。与之前使用EGA方法进行图像生成相比，可能需要几十到三百步才能收敛到高质量图片。而使用DPM Solver，通过其针对扩散模型特殊设计的结构，作为ODE求解器，实际上只需十余步即可生成高质量图片。在V3版本中，我们进一步提升了其效果。关于其原理，我就不详细展开了。

这一项包含更多对比，包括对一键模型的改进方法。整体上，Depentsoil的效果依然十分显著。

扩散模型的底层架构，由于其本质是加噪去噪过程，因此在之前的许多研究中，研究者们倾向于采用UNet架构作为图像去噪模型的主干网络，主要基于卷积方式实现。