专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

新智元 · 公众号 · AI · 2024-12-21 05:12

正文

编辑：LRST

在AI生成图像领域，Stable Diffusion已经成为一个里程碑式的工具，凭借其强大的图像生成能力，被广泛应用于艺术创作、商业设计等领域。

然而，生成高质量图像的过程常常需要付出大量的时间和内存，这对于硬件资源有限的设备来说是一大挑战。

为了应对这一问题，北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp（简称Sdcpp）的优化方法，引入了Winograd算法和三个优化策略，最终整图生成速度最高可达到4.79倍，从此实现创作自由！

论文链接：https://arxiv.org/pdf/2412.05781

项目主页：https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++实现，旨在无需外部依赖的情况下在CPU（以及可能配置GPU）上实现高效推理。Sdcpp作为一个高效的推理框架，不仅能够显著加速模型的运行，还能大幅减少内存占用。

Sdcpp的实现中，计算密集型的2D卷积运算是图像生成的主要瓶颈，虽然功能强大，但效率却不够理想，推理速度较慢，内存占用高。

为了解决这些问题，研究人员在Sdcpp的基础上，引入了Winograd算法，对Sdcpp中的卷积操作进行了革命性的改进，最终实现了性能与资源利用率的双提升。

主要优化策略为：

分步处理： 将卷积拆解为滤波器和激活权重的预处理、预处理张量的逐元素乘法和中间结果的后处理三个阶段，提高运算效率。
局部优化： 通过调整数据加载方式（散点存储和聚集加载优化），减少 L1 缓存的切换，最大限度地减少缓存交换，提升内存使用效率。
并行处理： 分析算子间的关联性，将关联性较小的运算动态分配到不同的计算线程与核心上，充分利用多线程和多核心架构，动态分配计算任务，充分发挥硬件性能，减少图像生成延迟。

尤其是在M系列Mac设备上，优化了性能核心（P-core）和效率核心（E-core）的分工，使推理速度得到了显著提升。

多设备、多模型支持

优化后的Sdcpp框架支持多个设备和模型，包括：

此外，该框架还支持并且优化了diffusion transformer模型中的算子，进一步拓展了应用场景。

速度提升，快！

通过实际测试，优化成果令人振奋！

单卷积 层的加速表现：对于多种卷积层配置，推理速度平均提升超过2倍！

研究人员测试了在一些在SD生成图片过程中出现比较频繁的卷积层，计算了在这些单卷积层上，优化的Sdcpp相较于原版Sdcpp的加速效果。在不同的卷积层上，推理速度提升至少达到2倍。

整图生成速度对比：最高加速比达到4.79倍！

图像分辨率越大，方法的加速效果越明显。在生成1024×1024分辨率图像时，相比于原版Sdcpp，优化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超过4.6 倍（FP32 类型）。

对于其他图像尺寸和SD模型，优化的Sdcpp的加速效果也十分显著（如SDv1.5模型生成512×512图像时在M1 Pro上加速1.84 倍）。

显著的加速比主要得益于框架的局部优化（降低缓存交换并且提高内存使用效率），以及并行处理（动态分配计算任务并且提高运算并行度）。