扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如Stable Diffusion,DALLE,Imagen,Sora等大模型涌现,进一步丰富了生成式 AI 的应用前景。
然而,当前的扩散模型在理论上并非完美,比如采样时间端点处未定义的奇点问题。会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,这在一定程度上也限制了当前扩散模型的应用范围。
针对此问题,微信视觉算法团队和中山大学联合提出了一个即插即用的方法SingDiffusion,该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。
项目地址:https://github.com/PangzeCheung/SingDiffusion
论文链接:https://arxiv.org/abs/2403.08381
论文阅读
解决扩散模型中时间间隔端点的奇异性
摘要
大多数扩散模型假设逆过程遵循高斯分布。然而,这种近似尚未经过严格验证,尤其是在t=0和t=1的奇点处。不正确地处理此类奇点会导致应用中的平均亮度问题,并限制极端亮度或黑暗图像的生成。
我们主要致力于从理论和实践的角度解决奇点。最初,我们建立逆过程近似的误差界限,并展示其在奇点时间步长的高斯特性。基于这一理论见解,我们确认t=1处的奇点是有条件可去除的,而t=0处的奇点是固有属性。
基于这些重要结论,我们提出了一种新颖的即插即用方法SingDiffusion来解决初始奇异时间步采样问题,该方法不仅有效解决了各种扩散模型的平均亮度问题,而无需额外的训练工作,而且还增强了其显着降低FID分数的发电能力。
方法
现有的扩散模型在t=0和t=1时遇到奇点。特别是由于没有考虑到t=1时的采样,会遇到平均亮度问题。为了解决这个问题,我们提出了一个即插即用的SingDiffusion方法(红色突出显示)来弥补这个差距。
奇点的定义
重要理论贡献
解决平均亮度问题
Stable Diffusion和SingDiffusion在平均亮度问题上的比较。
提高30K COCO提示的FID和CLIP分数
SingDiffusion、SD-1.5 和 SD-2.0 之间基于 30k COCO图像的Pareto曲线比较,跨不同指导尺度。
实验
无缝适应不同的模型
无缝适应ControlNet
SingDiffusion可以与ControlNet无缝集成使用。
总结
文章从理论上探讨了奇异点,并提出了一个即插即用模块SingDiffusion来解决在初始奇异时间步长的采样挑战。可以训练一次并以即插即用的方式无缝集成到CIVITAI上的预训练模型中。
通过将该模块集成到现有的预训练模型中,有效地解决了生成暗图像和亮图像的困难,并进一步提高了整体图像质量,定量分析也证实了这一点。
感谢你看到这里,也欢迎点击关注下方公众号或者扫描添加下方公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~