专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
51好读  ›  专栏  ›  AI算法与图像处理

图像美感增强SOTA,拒绝美感焦虑!字节跳动提出VMix:多维度美学控制方法,一键提升图像光影、色彩等

AI算法与图像处理  · 公众号  ·  · 2025-03-10 20:35

正文

来源:我爱计算机视觉

尽管扩散模型在文本到图像生成方面取得了显著成功,它们可能仍然无法生成高度美学的图像。在包括颜色、光照、构图等更细致的维度上,生成的图像与真实世界的美学图像之间仍然存在差距。

为了解决这个问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

  • 论文题目:VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control
  • 文章链接:https://arxiv.org/pdf/2412.20800
  • 代码地址:https://github.com/fenfenfenfan/VMix
  • 项目地址:https://vmix-diffusion.github.io/VMix/

效果展示

首先展示论文方法对不同模型的美感增强,对于不同开源底模,VMix都能有效提升基模的美感。下图是使用VMix前后的对比,可以看到图片在光影、色彩、质感等的表现上都有显著提升。

另外,VMix还可以增强模型在特定维度上的表现,通过美学向量实现细粒度视觉控制,从而实现对应维度美学的提升,当美学向量的所有标签为正时,此时图片的美感是最高的。

此外,VMix方法除了能直接提升开源模型(包括SD1.5、SDXL)生图效果外,还兼容开源社区的其它方法,包括ControlNet、LoRA、IPAdapter等。

底模兼容性:







请到「今天看啥」查看全文