专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
918云南交通台  ·  不要吃!不要吃!不要吃! ·  昨天  
内蒙古市场监管  ·  国家知识产权公共服务平台上线运行 ·  2 天前  
内蒙古市场监管  ·  国家知识产权公共服务平台上线运行 ·  2 天前  
51好读  ›  专栏  ›  AI算法与图像处理

复旦&字节提出CreatiLayout:基于布局进行可控生成的大规模数据集与新SOTA!

AI算法与图像处理  · 公众号  ·  · 2025-01-06 21:18

正文

来源:我爱计算机视觉
本篇分享论文 CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation ,是由复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成!
  • 论文地址: https://arxiv.org/abs/2412.03859
  • 项目主页: https://creatilayout.github.io
  • 项目代码: https://github.com/HuiZhang0812/CreatiLayout
  • 项目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
  • 数据集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM

任务背景

布局到图像生成 (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。Layout-to-Image则能根据这些信息,生成符合用户需求的图像。

Layout-to-Image能进一步释放Text-to-Image模型的能力,为用户进一步提供精确控制和创意表达的渠道,在游戏开发、动画制作、室内设计、创意设计等场景有着广泛的应用前景。

先前的Layout-to-Image模型,主要存在以下问题:

  • 布局数据问题 :现有的布局数据集存在封闭集合的小规模数据和粗粒度的实体标注等方面的不足,这限制了模型在生成开放集实体的泛化能力以及在生成具有复杂属性实体的精准性。
  • 模型架构问题 :先前模型主要集中在 U-Net 架构上,例如 SD1.5 和 SDXL。然而,随着MM-DiT的发展,SD3、FLUX等文生图模型开辟了视觉质量与文本遵循度的新高度。直接将 U-Net 的布局控制范式应用到 MM-DiT 上会削弱布局控制的准确度。因此需要为 MM-DiT 设计一个新框架,以高效融合布局信息,充分发挥其潜力。
  • 用户体验问题 :许多现有方法只支持边界框作为用户指定实体位置的方式,缺乏对更灵活输入方式(例如中心点、掩码、草图或只是语言描述)的处理能力,限制了用户的使用体验。此外,这些方法不支持对用户的布局进行添加、删除或修改等优化。

方法简介

为了解决先前方法在数据、模型、体验等方面存在的问题,CreatiLayout 提出了针对性的解决方案,实现了更高质量、更可控的布局到图像生成。

1. 大规模&细粒度的布局数据集:LayoutSAM

CreatiLayout 构建了自动标注布局的链路,提出了大规模布局数据集 LayoutSAM,包含了 270万图像-文本对和 1070万个实体标注。

LayoutSAM 从 SAM 数据集中筛选而来,有着开放集的实体、细粒度的标注和高图像质量等特质。每个实体都包含边界框和详细描述,涵盖颜色、形状、纹理等复杂属性。这为模型能够更好地理解和学习布局信息提供了数据驱动。

基于此,CreatiLayout构建了布局到图像生成评估基准LayoutSAM-Eval,全面评估模型在布局控制、图像质量和文本遵循等方面的表现。







请到「今天看啥」查看全文