训练慢？没GPU？一文总结全部轻量级扩散模型！

3D视觉工坊 · 公众号 · · 2024-10-07 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Lightweight diffusion models: a survey

作者：Wei Song, Wen Ma, Ming Zhang, Yanghao Zhang, Xiaobing Zhao

机构：Minzu University of China

原文链接：https://doi.org/10.1007/s10462-024-10800-8

1. 摘要

扩散模型（DMs）是一类具有潜力的生成模型，在许多领域比传统方法取得了更好的效果。DMs包含两个主要过程：一是正向过程，即逐渐向原始数据中添加噪声，直至变为纯高斯噪声；二是反向过程，即逐渐去除噪声以生成符合目标分布的样本。DMs通过迭代噪声处理过程优化应用结果。然而，这极大地增加了训练和推理阶段的计算和存储成本，限制了DMs的广泛应用。因此，如何在充分发挥DMs良好性能的同时，有效减少其资源消耗，已成为一个有价值且必要的研究问题。目前，已有一些研究致力于轻量化DMs以解决此问题，但该领域尚未有综述性文章。本文聚焦于图像处理领域的轻量化DMs方法，根据其处理思路进行分类，最后分析和讨论了未来工作的发展前景。希望本文能为其他研究人员提供减少DMs资源消耗的战略思路，从而促进该研究方向的进一步发展，并为更广泛的应用提供可用模型。

2. 引言

扩散模型（DMs），作为一类基于得分的生成模型，近年来因其强大的性能而备受关注。与生成对抗网络（GANs）相比，DMs可以提供更稳定的训练和更好的模式覆盖。此外，DMs不像其他生成模型（如自回归模型、变分自编码器（VAEs）或归一化流（Flows））那样对模型架构有严格限制。因此，凭借其巨大的优势和潜力，DMs在图像处理领域成功应用后，迅速扩展到音频和音乐合成、语言模型、视频生成等其他领域，并取得了令人满意的结果。

DMs使用噪声扰动数据进行训练，并学习从噪声数据中去除相应的噪声。相应的加噪和去噪过程被置于马尔可夫链上。与其他如GANs、VAEs和Flows等生成模型的单步生成不同，训练后的DMs可以在多步迭代去噪过程中获得目标数据分布的结果。它们通过这种方式结合更大规模的神经网络架构逐渐优化中间结果，从而获得高质量的样本。但这在时间消耗、计算成本和存储资源方面也付出了高昂的代价。例如，GENIE使用了约163k GPU小时的NVIDIA V100 GPU集群；PBE使用64个NVIDIA V100 GPU训练约需7天；DiT-XL/2分别需要约950和1733个V100 GPU日来训练256×256和512×512的图像；ResGrad和GradTTS均使用8个NVIDIA V100 GPU，分别需要500k和1700k训练步骤；DALL-E 2包含4个独立的DMs，需要55亿参数；ADM在256×256图像合成上的参数大小为552.8M，使用A100 GPU生成50k样本需要5天时间DMs的迭代生成过程在计算上通常比其他单步生成模型高出10到2000倍。这些早期DMs的改进和应用主要集中在以成本换取高样本质量上，导致模型参数众多、研究周期长、硬件要求高。因此，这种情况限制了DMs在实时性要求高和资源受限任务中的推广。同时，高资源消耗也给大多数研究人员带来了压力，进一步阻碍了DMs的探索和发展。在此背景下，轻量化DMs已成为一个非常迫切且有价值的研究问题。

近期的研究开始关注并尝试解决DMs高成本的问题。随着不同领域研究人员的投入，DMs的轻量化研究逐渐在处理效率和结果质量之间取得了令人满意的平衡。然而，相关工作的数量逐渐增加，方法也各不相同，研究人员越来越难以跟上新进展的速度，这不利于DMs的推广和普及。因此，迫切需要调查现有轻量化DMs的进展。本文将回顾图像处理领域现有的轻量化DMs方法，并根据轻量化思路对论文进行分类。此外，在分析当前研究成果的基础上，还给出了轻量化DMs方法的未来展望。希望本文能为研究DMs的学者提供有价值的参考。推荐课程：国内首个Halcon深度学习项目实战系统教程。

3. 轻量级扩散模型

尽管扩散模型（DMs）能够获得令人满意的高质量结果，但其训练和推理过程却消耗了大量时间、计算资源和存储成本。这是因为扩散模型不仅依赖于成百上千的扩散步骤T，而且在采样过程的每一步中都需要网络评估的帮助来优化结果。为了使扩散模型能够克服在存储空间和计算能力有限的环境中部署的挑战，研究其轻量化尤为重要。近年来，轻量化扩散模型的研究已取得一定进展。由于扩散模型首次成功应用于图像领域，该领域的轻量化扩散模型发展历程相对较长。因此，本节重点关注图像处理领域中扩散模型的轻量化方法，并根据现有文献中使用的轻量化思路，将这些方法分类为知识蒸馏（KD）、量化、剪枝、微调、信号域转换、算法优化、混合策略以及其他方法（图2）。以下各节将分别描述这八大类方法。

4. 结论

由于其在图像处理领域的卓越性能和巨大潜力，扩散模型（DMs）已成为研究热点。然而，其高昂的计算和存储成本对于缺乏高性能硬件设备的研究人员来说并不友好，从而限制了其应用。对于需要构建在智能边缘设备上的应用，设计轻量化方法显得尤为重要。为了在生成高质量样本的同时降低训练和推理阶段的成本，近年来提出了许多方法。这些方法从知识蒸馏（KD）、量化、剪枝、微调、信号域转换、算法优化、混合策略等不同角度进一步减轻了扩散模型的负担。本文首先介绍了扩散模型的基本原理，然后对这些方法进行了分类梳理。然而，当前针对扩散模型的轻量化方法尚未得到充分探索，这意味着仍存在需要关注的问题。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、