专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

FLUX加持大幅提升渲染质量和控制能力！浙大 & 哈佛提出3DIS升级版3DIS-FLUX

极市平台 · 公众号 · · 2025-01-22 22:00

正文

↑ 点击蓝字关注极市平台

作者丨AI生成未来

来源丨AI生成未来

编辑丨极市平台

极市导读

浙大与哈佛团队提出3DIS-FLUX，通过深度驱动的解耦生成框架和FLUX模型的结合，显著提升了多实例生成任务的渲染质量和控制能力，同时避免了额外训练负担，实验表明其在实例成功率和图像质量上优于现有方法。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

文章链接： https://arxiv.org/pdf/2501.05131

项目链接： https://limuloo.github.io/3DIS/

亮点直击

3DIS的创新 ：通过深度驱动的解耦生成框架，大大降低了对计算资源的需求，并解决了适配器方法的重新训练问题。

FLUX的集成 ：3DIS-FLUX利用FLUX模型提升了渲染质量和控制能力，超越了传统的U-Net架构。

训练-free细节渲染 ：通过细致控制FLUX模型中的Attention机制，成功实现了对每个实例细节的精确渲染，避免了额外的训练负担。

性能与质量双重提升 ：3DIS-FLUX在多个基准测试中显示出比现有方法更好的实例成功率和更高的图像质量。

总结速览

解决的问题：

适配器方法的挑战 ：当前的MIG方法通常基于适配器，这要求在每次推出更先进的模型时重新训练新的适配器，消耗大量资源。此外，高质量的实例级标注数据难以获得。
计算资源和数据依赖 ：适配器方法需要为不同的模型进行重新训练，这对资源有限的用户造成了困扰；同时，实例级别的标注数据难以获得。

提出的方案：

3DIS框架 ：通过将MIG过程分为两个阶段：1) 基于深度的场景构建；2) 利用预训练的深度控制模型进行细节渲染，减轻了对大量训练数据和计算资源的依赖。特别地，3DIS在场景构建阶段只需要训练深度生成模型。
3DIS-FLUX扩展 ：在3DIS框架基础上，引入FLUX模型用于增强渲染能力，利用FLUX.1-Depth-dev模型进行深度图控制的图像生成，同时通过训练-free的细节渲染器对实例属性进行精细化控制，确保每个实例的细节符合布局信息。

应用的技术：

3DIS框架 ：将MIG分为深度生成和细节渲染两个独立的阶段，前者使用布局到深度图的生成模型，后者利用预训练的深度控制模型进行细节渲染。
FLUX模型 ：作为基于Diffusion Transformer（DiT）架构的模型，FLUX具有比传统U-Net架构更强的渲染能力和控制能力。特别是在3DIS-FLUX中，FLUX被用来生成基于深度图的图像，并通过约束Joint Attention机制精确渲染每个实例的细节。
训练-free的细节渲染器 ：通过约束FLUX的Joint Attention机制，确保每个实例的图像tokens仅关注自己的text tokens，从而精确渲染实例属性。

达到的效果：

提高渲染精度 ：3DIS-FLUX在COCO-MIG基准测试中，相比原始的3DIS方法（使用SD2和SDXL），实例成功率（ISR）提高了6.9%。相比于训练-free的SOTA方法Multi-Diffusion，ISR提高了41%以上，超越了当前的SOTA适配器方法InstanceDiffusion（提高了12.4%）。
图像质量提升 ：FLUX模型的引入大幅提高了图像质量，3DIS-FLUX在渲染效果上超过了其他方法。

方法

前提

FLUX是一种最新的最先进的扩散Transformer（DiT）模型，相比于以前的模型，它生成的图像质量更高，并展示了强大的文本控制能力。给定输入文本，FLUX 首先使用 T5 文本编码器将其编码为文本嵌入。然后，将这个文本嵌入与图像嵌入连接，进行联合注意力机制。经过几轮联合注意力后，FLUX 模型解码输出的图像嵌入，生成与输入文本相对应的高质量图像。

问题定义

多实例生成（MIG）要求生成模型同时生成多个实例，确保它们的位置和属性与用户的规格对齐。给定布局和实例的文本描述，MIG 要求每个实例在指定的位置生成，并与描述在视觉上匹配。此外，用户提供一个描述整个场景的全局文本，生成的图像必须与该全局文本一致。

概述

下图 2 展示了 3DIS-FLUX 的概述。与原始 3DIS 相似，3DIS-FLUX 将多实例生成解耦为两个阶段：生成场景深度图和渲染细粒度细节。在第一阶段，3DIS-FLUX 使用来自 3DIS 的布局到深度模型生成基于用户提供的布局的场景深度图。在第二阶段，3DIS-FLUX 使用 FLUX.1-depth-dev模型从场景深度图生成图像，从而控制生成图像的布局。为了进一步确保每个实例的细粒度属性得到准确渲染，3DIS-FLUX 引入了细节渲染器，该渲染器在联合注意力过程中根据布局信息约束注意力掩码。

FLUX 细节渲染器

动机
给定第一阶段生成的场景深度图，FLUX.1-depth-dev 模型（BlackForest，2024）能够生成符合指定布局的高质量图像。在仅涉及单个实例的场景中，用户可以通过描述一个全局图像文本来实现精确渲染。然而，当尝试用一个全局文本描述准确地渲染多个实例时，会遇到挑战。例如，在上面图 2 所示的案例中，使用像“一个橙色杯子，一个黄色杯子，一个蓝色杯子”这样的描述渲染场景深度图中的每个“杯子”时，会遇到困难。这种方法常常导致颜色不一致的问题，例如原本应为蓝色的杯子被渲染为橙色，下图 4 中有更多例子说明了这个问题。因此，将空间约束整合到 FLUX 模型的联合注意力过程中对于准确渲染多个实例至关重要。为了解决这些问题，本文引入了一个简单但有效的 FLUX 细节渲染器，大大提高了渲染精度。

准备工作
为了根据用户的描述同时渲染多个实例，不仅将全局图像文本编码为，还将实例描述编码为。这些编码后的特征被连接成最终的文本嵌入，然后输入到 FLUX 模型的联合注意力机制中。根据用户提供的布局，我们在联合注意力过程中确定图像标记和文本标记之间的对应关系。由于在第一阶段已经生成了场景深度图，可以选择使用 SAM模型进一步优化用户的布局，以获得更准确的渲染，如图 2 所示。

控制图像嵌入的注意力
FLUX 模型通过多步采样生成图像。

早期步骤确定每个实例的主要属性。因此，必须严格避免属性泄漏，确保与实例对应的图像标记只能在区域内参与联合注意力，并且只能关注其对应的文本标记。
在后期步骤，为了确保生成图像的质量，放宽这一约束：每个图像标记可以关注所有其他图像标记。此外，在关注其对应的文本标记时，它还可以关注全局文本标记。我们通过设置阈值来控制这两个阶段。

控制文本嵌入的注意力
在 FLUX 模型中，T5 文本编码器专门用于提取文本编码，而没有结合图像数据进行预训练。这与以前使用 CLIP 文本编码器的方式不同，后者是在文本和图像数据上进行过预训练的。在联合注意力过程中，T5 文本嵌入本身缺乏显著的语义信息。如果没有约束，它们容易不小心引入错误的语义信息。例如，如下图 5 所示，当“黑色汽车”和“绿色停车计时器”的 T5 文本嵌入被连接并输入到 FLUX 的联合注意力机制时，允许“绿色停车计时器”标记关注“黑色汽车”标记，导致停车计时器主要呈现为黑色。与此同时，我们发现 FLUX 在此阶段无法成功渲染“黑色汽车”。因此，在联合注意力过程中必须对文本标记的注意力掩码施加约束，以避免此类语义差异。我们发现，在所有步骤中对实例的文本标记施加严格的注意力掩码约束，并不会显著影响最终生成图像的质量。因此，在所有步骤中，限制与对应的文本标记仅关注位于区域内的图像标记，并且只关注其自身的文本标记。对于全局文本标记，我们不施加显著约束。

实验

实现细节

在布局到深度阶段，采用与原始 3DIS方法相同的方式。为了在图像生成中加入深度控制，使用了 FLUX．1－depth－dev 模型。在图像生成过程中，采用了 20 步的采样策略。对于分辨率为 512 的图像，参数