专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  不得了了……Replit ... ·  昨天  
宝玉xp  ·  Lex Fridman ... ·  昨天  
人工智能那点事  ·  登山助力机器人在泰山试用!网友:感觉我又行了 ·  3 天前  
AI前线  ·  o3-mini之后,OpenAI又紧急上线D ... ·  3 天前  
51好读  ›  专栏  ›  新智元

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

新智元  · 公众号  · AI  · 2024-12-21 05:12

正文



新智元报道

编辑:LRST
【新智元导读】 北京大学等研究团队优化了Sdcpp框架,通过引入Winograd算法和多项策略,显著提升了图像生成速度和内存效率,最高可提速4.79倍。
在AI生成图像领域,Stable Diffusion已经成为一个里程碑式的工具,凭借其强大的图像生成能力,被广泛应用于艺术创作、商业设计等领域。

然而,生成高质量图像的过程常常需要付出大量的时间和内存,这对于硬件资源有限的设备来说是一大挑战。

为了应对这一问题,北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp(简称Sdcpp)的优化方法,引入了Winograd算法和三个优化策略,最终整图生成速度最高可达到4.79倍,从此实现创作自由!

论文链接:https://arxiv.org/pdf/2412.05781

项目主页:https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++实现,旨在无需外部依赖的情况下在CPU(以及可能配置GPU)上实现高效推理。Sdcpp作为一个高效的推理框架,不仅能够显著加速模型的运行,还能大幅减少内存占用。

Sdcpp的实现中,计算密集型的2D卷积运算是图像生成的主要瓶颈, 虽然功能强大,但效率却不够理想,推理速度较慢,内存占用高。

为了解决这些问题,研究人员在Sdcpp的基础上,引入了Winograd算法,对Sdcpp中的卷积操作进行了革命性的改进,最终实现了性能与资源利用率的双提升。

主要优化策略为:

  1. 分步处理: 将卷积拆解为滤波器和激活权重的预处理、预处理张量的逐元素乘法和中间结果的后处理三个阶段,提高运算效率。


  2. 局部优化: 通过调整数据加载方式(散点存储和聚集加载优化),减少 L1 缓存的切换,最大限度地减少缓存交换,提升内存使用效率。


  3. 并行处理: 分析算子间的关联性,将关联性较小的运算动态分配到不同的计算线程与核心上,充分利用多线程和多核心架构,动态分配计算任务,充分发挥硬件性能,减少图像生成延迟。


尤其是在M系列Mac设备上,优化了性能核心(P-core)和效率核心(E-core)的分工,使推理速度得到了显著提升。

多设备、多模型支持

优化后的Sdcpp框架支持多个设备和模型,包括:
  • 主流Stable Diffusion模型:SDv1.4、v1.5、v2.1、SDXL和SDXL-Turbo;
  • 不同硬件平台:Mac、Android、AMD等;
  • 扩展模块:如支持LoRA,以及支持算子量 化等,为用户提供更高的灵活性。


此外,该框架还支持并且优化了diffusion transformer模型中的算子,进一步拓展了应用场景。

速度提升,快!

通过实际测试,优化成果令人振奋!

单卷积 层的加速表现:对于多种卷积层配置,推理速度平均提升超过2倍!

研究人员测试了在一些在SD生成图片过程中出现比较频繁的卷积层,计算了在这些单卷积层上,优化的Sdcpp相较于原版Sdcpp的加速效果。在不同的卷积层上,推理速度提升至少达到2倍。

整图生成速度对比:最高加速比达到4.79倍!

图像分辨率越大,方法的加速效果越明显。在生成1024×1024分辨率图像时,相比于原版Sdcpp,优化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超过4.6 倍(FP32 类型)。

对于其他图像尺寸和SD模型,优化的Sdcpp的加速效果也十分显著(如SDv1.5模型生成512×512图像时在M1 Pro上加速1.84 倍)。

显著的加速比主要得益于框架的局部优化(降低缓存交换并且提高内存使用效率),以及并行处理(动态分配计算任务并且提高运算并行度)。







请到「今天看啥」查看全文