尽管扩散模型在文本到图像生成方面取得了显著成功,它们可能仍然无法生成高度美学的图像。在包括颜色、光照、构图等更细致的维度上,生成的图像与真实世界的美学图像之间仍然存在差距。
为了解决这个问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。
-
论文题目:VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
-
文章链接:https://arxiv.org/pdf/2412.20800
-
代码地址:https://github.com/fenfenfenfan/VMix
-
项目地址:https://vmix-diffusion.github.io/VMix/
效果展示
首先展示论文方法对不同模型的美感增强,对于不同开源底模,VMix都能有效提升基模的美感。下图是使用VMix前后的对比,可以看到图片在光影、色彩、质感等的表现上都有显著提升。
另外,VMix还可以增强模型在特定维度上的表现,通过美学向量实现细粒度视觉控制,从而实现对应维度美学的提升,当美学向量的所有标签为正时,此时图片的美感是最高的。
此外,VMix方法除了能直接提升开源模型(包括SD1.5、SDXL)生图效果外,还兼容开源社区的其它方法,包括ControlNet、LoRA、IPAdapter等。
底模兼容性:
插件兼容性:
背景介绍
美感提升一直都是文生图领域的一大难点,现有的工作已经在提高图像质量以满足人类偏好方面做出了相当大的努力,这些工作主要可以分为两大类。第一类工作侧重于基于特别高质量的子数据集,或者通过强化学习和直接偏好优化,对预训练的文本到图像模型进行微调;第二类工作则侧重于研究预训练扩散模型本身的生成行为,以提高其生成稳定性。
然而,作者认为现有的方法未能对视觉生成内容的细粒度人类偏好进行对齐。人类偏好的图像应在各种细粒度的美学维度上同时表现出色,例如自然光、协调的颜色和合理的构图。
一方面,这些细粒度的美学需求不能简单地通过增加详细的文本描述来让预训练的扩散模型理解。原因在于它们的文本编码器主要用于捕捉高层次语义,缺乏对这些难以言喻的视觉美学的准确感知。
另一方面,整体图像生成质量的优化方向既不等同于也不一致于这些细粒度美学维度的优化方向。例如,尽管整体生成结果可能在文本对齐方面表现更好,但它们可能在视觉构图方面表现较差。
方法介绍
基于以上背景,论文提出VMix方法,通过细粒度美学信息注入,让模型能更好地拟合高质量数据。从而一方面从多维度提升模型美学上限,另一方面还能维持基模原本的图文匹配能力。
VMix的完整流程如上:
第一步,在初始化阶段,预定义的美学标签通过CLIP转换为[CLS]标记,从而获得AesEmb,这只需要在训练开始时处理一次即可缓存,从而增加计算效率;
第二步,在训练阶段,一个投影层首先将输入的美学描述映射到与内容文本嵌入相同的标记维度的嵌入,然后,文本嵌入会通过提出的VMix值混合交叉注意力集成到去噪网络中;
第三步,在推理阶段,VMix从AesEmb中提取所有正向美学嵌入以形成美学输入,并与内容输入一起输入模型进行最终的去噪过程。
实验结果
在MJHQ-30K和LAION-HQ10K数据集上,VMix取得了最高的美学得分,相较于其它方法有着显著的超越,并且可以看到,原模型的图文匹配能力也得到了有效保留,从而充分验证了方法有效性。
此外,论文还分别基于SD1.5和SDXL与其它SOTA方法做了定性比较,并且还做了SFT的实验对比,可以看到,无论是一些细粒度的生图美感,还是图片的图文一致性,VMix都好于其它方法。