专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

复旦&字节提出CreatiLayout：基于布局进行可控生成的大规模数据集与新SOTA！

我爱计算机视觉 · 公众号 · · 2025-01-06 12:38

正文

关注公众号，发现CV技术之美

本篇分享论文 CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation ，是由复旦大学&字节跳动提出的layout-to-image新范式，支持基于布局的MM-DiT架构下的可控图像生成！

论文地址: https://arxiv.org/abs/2412.03859
项目主页: https://creatilayout.github.io
项目代码: https://github.com/HuiZhang0812/CreatiLayout
项目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
数据集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM

任务背景

布局到图像生成 (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术，其中布局信息包括实体在图像中的空间位置和描述。例如，用户指定了这些实体的描述与空间位置：钢铁侠手里拿着画板，站在岩石上，画板上用手绘字体写着“CreatiLayout”，背景是海边与日落。Layout-to-Image则能根据这些信息，生成符合用户需求的图像。

Layout-to-Image能进一步释放Text-to-Image模型的能力，为用户进一步提供精确控制和创意表达的渠道，在游戏开发、动画制作、室内设计、创意设计等场景有着广泛的应用前景。

先前的Layout-to-Image模型，主要存在以下问题：

布局数据问题 ：现有的布局数据集存在封闭集合的小规模数据和粗粒度的实体标注等方面的不足，这限制了模型在生成开放集实体的泛化能力以及在生成具有复杂属性实体的精准性。
模型架构问题 ：先前模型主要集中在 U-Net 架构上，例如 SD1.5 和 SDXL。然而，随着MM-DiT的发展，SD3、FLUX等文生图模型开辟了视觉质量与文本遵循度的新高度。直接将 U-Net 的布局控制范式应用到 MM-DiT 上会削弱布局控制的准确度。因此需要为 MM-DiT 设计一个新框架，以高效融合布局信息，充分发挥其潜力。
用户体验问题 ：许多现有方法只支持边界框作为用户指定实体位置的方式，缺乏对更灵活输入方式（例如中心点、掩码、草图或只是语言描述）的处理能力，限制了用户的使用体验。此外，这些方法不支持对用户的布局进行添加、删除或修改等优化。

方法简介

为了解决先前方法在数据、模型、体验等方面存在的问题，CreatiLayout 提出了针对性的解决方案，实现了更高质量、更可控的布局到图像生成。

1. 大规模&细粒度的布局数据集：LayoutSAM

CreatiLayout 构建了自动标注布局的链路，提出了大规模布局数据集 LayoutSAM，包含了 270万图像-文本对和 1070万个实体标注。

LayoutSAM 从 SAM 数据集中筛选而来，有着开放集的实体、细粒度的标注和高图像质量等特质。每个实体都包含边界框和详细描述，涵盖颜色、形状、纹理等复杂属性。这为模型能够更好地理解和学习布局信息提供了数据驱动。

基于此，CreatiLayout构建了布局到图像生成评估基准LayoutSAM-Eval，全面评估模型在布局控制、图像质量和文本遵循等方面的表现。

2. 将布局信息视为一种模态的模型架构：SiamLayout

CreatiLayout 提出了 SiamLayout 框架，将布局信息引入MM-DiT的同时，有效缓解了模态竞争问题，增强了布局的指导作用，相比于其他网络方案取得了更精准的布局控制。核心设计点为：

将布局信息视为一种独立的模态，与文本和图像模态同等重要，提升布局信息对图像内容指导程度
布局模态与图像模态的交互通过MM-DiT原生的MM-Attention实现，保留了其在模态交互的优势
将图像、文本、布局这三个模态的交互解耦为两个孪生的分支：图像-文本交互分支与图像-布局交互分支，使得文本与布局对图像内容的指导各司其职、互不干扰。

3. 支持布局生成与优化的布局设计器：LayoutDesigner

CreatiLayout 提出了 LayoutDesigner，利用大语言模型进行布局规划，能够根据用户输入（中心点、掩码、草图、文本描述）生成和优化布局，支持更灵活的用户输入方式，并提供布局优化功能，例如添加、删除、修改实体等。这使得用户能够更方便地表达自己的设计意图，并生成更和谐美观的布局。

实验结果

1. 与SOTA方法在布局到图像生成的对比实验

在细粒度开放集布局到图像生成任务上，CreatiLayout在空间定位、颜色、纹理、形状等区域级别的属性渲染上都优于之前的 SOTA 方法；在整图质量上，CreatiLayout也展现出更好的视觉质量与文本遵循度。

下面的可视化结果进一步证实了CreatiLayout 的优势。例如对于"HELLO FRIENDS"这一文本的更精准的生成和对不同颜色的铅笔与长椅的生成等。可以在项目demo上进一步感受CreatiLayout在Layout-to-Image的能力。