专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ECCV 2024 Oral｜SPLAM：基于子路径线性近似的扩散模型加速方法

极市平台 · 公众号 · · 2024-08-22 22:00

正文

↑ 点击蓝字关注极市平台

作者丨王利民@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/714477030

编辑丨极市平台

极市导读

本工作主要解决扩散模型在采样过程中需要多步导致推理速度较慢，针对现有的LCM存在的累积误差较大的问题进行优化，通过提出线性ODE采样方法，进一步提升了生图的质量和速度。在四步推理的设置下，在COCO30k和COCO5k上分别取得了10.06和20.77的FID分数，在加速模型方法中达到了SOTA效果。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍南京大学和阿里巴巴在扩散模型加速任务上的新工作： SPLAM: Accelerating Image Generation with Sub-Path Linear Approximation Model 。本工作主要解决扩散模型在采样过程中需要多步导致推理速度较慢，针对现有的LCM存在的累积误差较大的问题进行优化，通过提出线性ODE采样方法，进一步提升了生图的质量和速度。在四步推理的设置下，在COCO30k和COCO5k上分别取得了10.06和20.77的FID分数，在加速模型方法中达到了SOTA效果。

目前我们的工作已被 ECCV 2024 接收为 Oral，论文、代码、模型均已开源：

项目主页： https://subpath-linear-approx-model.github.io/

论文： https://arxiv.org/abs/2404.13903

代码： https://github.com/MCG-NJU/SPLAM

引言

扩散模型目前已经成为文本生成图片领域使用最为广泛的模型，其通过逐步去噪步骤来从一张高斯噪声采样生成真实分布中的图片。然而，扩散模型一直存在的一个问题是其运行速度，因为需要多步迭代推理，导致图片生成速度缓慢，计算开销大。针对这个问题一直以来，也有非常多的工作在探索加速扩散模型的方法。在最初的DDPM中，模型的推理需要和训练时相同的1000步迭代，生成一张图片通常需要数分钟。一系列工作着重研究推理时的采样方法，如DDIM，DPM-Solver等，这些方法通过ODE等技术优化，将采样步数从1000步降低到了20～50步量级，大大提升了图片生成速度。另外一系列的工作着重研究基于现有预训练模型（比如Stable Diffusion），通过蒸馏等方法将步数进一步压缩，实现到了10步以下的采样迭代次数。如一致性模型，通过将PF-ODE上的采样点映射到原点的思想，实现了2-4步的推理，然而压缩步数也会导致一定程度的图片质量下降。我们的论文主要分析了一致性优化学习的过程中的难点和导致性能下降的因素，提出了子路径线性近似模型（SPLAM）尝试缓解这些问题，实现了更小的累积误差，提升了模型性能。

方法简介

一致性模型

一致性模型（Consistency Model）[1] 是 OpenAI 的 Song Yang 博士在 ICML2023 提出的扩散模型加速方法，是这个领域中非常重要的一项工作，基于此在Stable Diffusion上开发的LCM模型 [2] 也是在用户社区中热度非常高加速功能插件，我们首先来回顾一下一致性模型的原理。

根据 Song Yang [3] 的理论，一个扩散模型的去噪过程可以建模为一条常微分方程ODE路径，称为概率流Probability-Flow ODE (PF-ODE):

而一致性模型的想法其实也非常简单，就是将ODE路径上每一个点都映射到原点，而原点来源于真实图片的分布，从而做到一步生成，如图所示：

具体地, 我们希望学习一个函数 , 对于一条ODE上的采样点。在训练中, 从逐步采样到通常时间开销过大, 所以CM采取了一个训练技巧, 在每一步训练迭代中通过缩小相邻两个点间的映射误差, 来逐渐最终达到一致性。然而这也带来了问题, 逐步的收玫导致了较大的累积误差:

使得在生图时的图片的细节丢失较多，生图质量较差。我们的方法也是针对这个问题，通过在每个子路径上通过随机线性插值采样，来进行连续的渐进式的误差估计，做到累计误差更小的去噪映射。

问题分析

对于上面提到的一步生成模型，我们通常把映射函数参数化为:

根据EDM中的理论, 我们可以设计一个 canonical denoiser function: ，而其去噪目标就为 : 。这时会存在一个问题, 这个目标其实比较难以优化，原因在于随着时间步的增加，会逐渐趋向于零，这会使得训练不稳定有可能塌缩。一致性模型其实一定程度上缓解了这个问题, 当我们假设模型理想地收敛, 即 , 这个性质能够对于上式进行一个预估：。然后我们把的表达式代入，得到一个基于的误差估计：