专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

T2I-CompBench：一个用于开放式世界组合式文本到图像生成的综合基准

FightingCV · 公众号 · · 2024-10-01 10:08

正文

摘要

尽管最近的文本到图像模型在生成高质量图像方面展现出惊人的能力，但当前的方法通常难以有效地将具有不同属性和关系的物体组合成一个复杂且连贯的场景。我们提出了 T2I-CompBench，一个用于开放式世界组合式文本到图像生成的综合基准，它包含来自 3 个类别（属性绑定、对象关系和复杂组合）和 6 个子类别（颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合）的 6,000 个组合式文本提示。我们进一步提出了几个专门用于评估组合式文本到图像生成的评估指标，并探讨了多模态 LLM 用于评估的潜力和局限性。我们介绍了一种新方法，即通过奖励驱动的样本选择来微调生成式模型 (GORS)，以提高预训练文本到图像模型的组合式文本到图像生成能力。进行了大量实验和评估，以在 T2I-CompBench 上对先前方法进行基准测试，并验证我们提出的评估指标和 GORS 方法的有效性。项目页面位于 https://karine-h.github.io/T2I-CompBench/。

图 1： Stable Diffusion v2 [1] 的失败案例。我们的组合式文本到图像生成基准包含三个类别：属性绑定（包括颜色、形状和纹理）、对象关系（包括空间关系和非空间关系）以及复杂组合。

1 引言

文本到图像生成的最新进展 [2, 1, 3, 4, 5, 6] 展示了基于自然语言提示创建多样化且高保真图像的非凡能力。然而，我们观察到，即使是最先进的文本到图像模型，也常常无法将多个具有不同属性和关系的物体组合成一个复杂且连贯的场景，如图 1 中 Stable Diffusion [1] 的失败案例所示。例如，给定文本提示“一辆蓝色长椅在绿色汽车的左边”，模型可能会将属性绑定到错误的物体或生成错误的空间布局。

以前的工作已经从不同的角度探索了组合式文本到图像生成，例如概念连接 [7] 、属性绑定（专注于颜色） [8, 9] 以及空间关系 [10] 。这些工作大多集中在一个子问题上，并提出了自己的基准来评估它们的方法。然而，在组合文本到图像生成的定义和标准基准方面，并没有达成共识。为此，我们提出了一个面向开放世界组合文本到图像生成的综合基准，T2I-CompBench。 T2I-CompBench 包含三个类别和六个子类别组合文本提示：(1) 属性绑定。此类别中的每个文本提示至少包含两个对象和两个属性，并且模型应该将属性与正确对象绑定以生成复杂的场景。此类别根据属性类型细分为三个子类别（颜色、形状和纹理）。 (2) 对象关系。此类别中的每个文本提示都包含至少两个对象，并指定了对象之间的关系。根据关系的类型，此类别包括两个子类别：空间关系和非空间关系。 (3) 复杂组合，其中文本提示包含两个以上对象或两个以上上述子类别。例如，一个描述三个对象及其属性和关系的文本提示。

另一个挑战是评估组合文本到图像模型。大多数先前的工作通过图像-文本相似性或文本-文本相似性（在从生成的图像中预测的标题和原始文本提示之间）来评估模型，使用 CLIPScore [11, 12] 或 BLIP [13, 14] 。然而，由于图像字幕的歧义和组合视觉-语言理解的难度，这两个指标在组合性评估方面表现不佳。为了应对这一挑战，我们为不同类别的组合提示提出了几个评估指标。我们提出了分离式 BLIP-VQA 用于属性绑定评估以克服属性对应关系的歧义，基于 UniDet 的指标用于空间关系评估，以及 3-in-1 指标用于复杂提示。我们进一步研究了多模态大型语言模型（如 MiniGPT-4 [15] ）结合思维链 [16] 用于组合性评估的潜力和局限性。

最后，我们提出了一种新的方法， Generative mOdel finetuning with Reward-driven Sample selection (GORS) ，用于组合文本到图像生成。我们使用与组合提示高度一致的生成图像对最先进的 Stable Diffusion v2 [1] 模型进行微调，其中微调损失由奖励加权，该奖励定义为组合提示和生成图像之间的对齐分数。这种方法简单但有效，可以提高模型的组合能力，并可作为未来探索的新基线。

总之，我们的贡献有三方面。 (1) 我们提出了一套用于组合文本到图像生成的综合基准，其中包含来自 3 个类别（属性绑定、对象关系和复杂组合）和 6 个子类别（颜色绑定、形状绑定、纹理绑定、空间关系、非空间关系和复杂组合）的 6,000 个提示。 (2) 我们提出了专门针对组合文本到图像评估而设计的评估指标。实验验证了所提出的评估指标与人类感知高度相关。 (3) 我们在所提出的基准和评估指标上对几个以前的文本到图像模型进行了基准测试，并提出了一种简单有效的 GORS 方法来提高文本到图像模型的组合性。

2 相关工作

文本到图像生成。早期工作 [18, 19, 20, 21, 22, 23] 基于生成对抗网络 (GAN) [24] 探索了不同的网络架构和损失函数。 DALL ⋅ E [25] 使用在网络规模数据上训练的 Transformer 和离散变分自编码器 (VAE) 取得了令人印象深刻的结果。最近，扩散模型在文本到图像生成方面取得了显著成功 [26, 27, 1, 28, 29] 。尽管像 Stable Diffusion [1] 这样的最先进模型仍然难以在复杂场景中合成具有属性和关系的多个对象。一些最新研究试图将文本到图像模型与人类反馈对齐 [30, 31] 。并行工作 RAFT [32] 提出了奖励排序微调，以使文本到图像模型与某些指标对齐。我们提出的 GORS 方法是一种更简单的微调方法，它不需要多次样本生成和选择。

组合式文本到图像生成。研究人员深入研究了文本到图像生成中组合性的各个方面，以实现视觉上连贯且语义上一致的结果 [7, 8, 33, 10] 。之前的工作集中在概念连接和否定 [7] 、颜色属性绑定 [8, 9, 34] 以及对象之间的空间关系 [35, 10] 上。然而，这些工作都针对一个子问题，并且评估是在受限场景中进行的。我们的工作是第一个引入用于组合式文本到图像生成的综合基准。

用于文本到图像生成的基准。早期的工作评估了 CUB 鸟类 [36] 、牛津花卉 [37] 和 COCO [38] 上的文本到图像，这些图像很容易，并且多样性有限。随着文本到图像模型的增强，引入了更具挑战性的基准。 DrawBench [3] 包含 200 个提示，用于评估计数、组合、冲突和写作技能。 DALL-EVAL [39] 提出了 PaintSkills，通过 7,330 个提示来评估视觉推理技能、图像文本对齐、图像质量和社会偏见。 HE-T2I [40] 提出了 900 个提示，用于评估文本到图像的计数、形状和面部。还提出了一些组合式文本到图像基准。 Park 等人 [34] 提出了一个在 CUB Birds [36] 和 Oxford Flowers [37] 上的基准测试，以评估模型生成具有物体颜色和物体形状组合的图像的能力。 ABC-6K 和 CC500 [8] 基准测试旨在评估文本到图像模型的属性绑定，但它们只关注颜色属性。同时进行的工作 HRS-Bench [17] 是一个通用的基准测试，它使用 45,000 个提示评估 13 项技能。组合性只是评估的 13 项技能中的一项，并未得到广泛研究。我们提出了第一个针对开放世界组合文本到图像生成的综合基准测试，如表 1 所示。

文本到图像生成的评估指标。现有的文本到图像生成指标可以分为保真度评估、对齐评估和基于 LLM 的指标。传统指标，例如 Inception Score (IS) [41] 和 Frechet Inception Distance (FID) [42] 通常用于评估合成图像的保真度。为了评估图像-文本对齐，通常使用 CLIP [11] 和 BLIP2 [14] 的文本-图像匹配以及 BLIP [13] 注释和 CLIP 文本相似性的文本-文本相似性。一些同时进行的工作利用大型语言模型 (LLM) 的强大推理能力进行评估 [43, 44] 。然而，还没有对这些评估指标在组合文本到图像生成方面的效果进行全面研究。我们提出了专门为我们的基准测试设计的评估指标，并验证了我们提出的指标与人类感知更一致。

3 丢失

文本到图像模型的组合性是指模型根据文本提示将不同的概念组合成一个复杂且连贯的场景的能力。它包括将属性与对象组合、将不同的对象与指定的交互和空间关系组合以及复杂组合。为了提供一个清晰的定义问题并构建我们的基准测试，我们引入了组合性的三个类别和六个子类别，属性绑定（包括三个子类别：颜色、形状和纹理）、对象关系（包括两个子类别：空间关系和非空间关系）以及复杂组合。我们为每个子类别生成了 1,000 个文本提示（700 个用于训练，300 个用于测试），总共产生了 6,000 个组合文本提示。在构建基准时，我们考虑了测试集中已见 v.s. 未见组合、具有固定句子模板 v.s. 自然提示以及简单 v.s. 复杂提示之间的平衡。文本提示是使用预定义规则或 ChatGPT [45] 生成的，因此很容易扩展。表中显示了我们的基准与先前基准的比较。 1 .

3.1 属性绑定

组合文本到图像生成的重大挑战是属性绑定，其中属性必须与生成图像中的相应对象相关联。我们发现，当文本提示中存在多个属性和多个对象时，模型往往会混淆属性和对象之间的关联。例如，对于文本提示“带蓝色窗帘和黄色椅子的房间”，文本到图像模型可能会生成一个带黄色窗帘和蓝色椅子的房间。根据属性类型，我们引入了三个子类别：颜色、形状和纹理，并为每个子类别构建了 1,000 个文本提示。对于每个子类别，有 800 个提示使用固定句子模板“a {adj} {noun} and a {adj} {noun}”（ e.g. ，“a red flower and a yellow vase”），以及 200 个没有预定义句子模板的自然提示（ e.g. ，“a room with blue curtains and a yellow chair”）。每个子类别的 300 个提示测试集包含 200 个已见 adj-noun 组合（adj-noun 组合出现在训练集中）和 100 个未见 adj-noun 组合（adj-noun 组合未出现在训练集中）。

颜色. 颜色是描述图像中对象的常用属性，当前的文本到图像模型经常混淆不同对象的颜色。与颜色绑定相关的 1,000 个文本提示是使用 CC500 [8] 中的 480 个提示、COCO [38] 中的 200 个提示以及 ChatGPT 生成的 320 个提示构建的。

形状. 我们定义了一组通常用于描述图像中对象的形状：长、高、短、大、小、立方体、圆柱体、锥体、圆形、圆形、椭圆形、长方形、球形、三角形、方形、矩形、圆锥形、五边形、泪滴形、新月形和菱形。我们将这些形状属性提供给 ChatGPT，并要求 ChatGPT 通过将这些属性与任意对象组合来生成提示，例如“一个长方形的钟和一个长凳”。

纹理。纹理也常用于描述物体的外观。它们可以捕捉物体的视觉属性，如光滑度、粗糙度和颗粒度。我们经常使用材料来描述纹理，如木质、塑料和橡胶。我们定义了几个纹理属性以及每个属性可以描述的物体。我们通过随机选择两个与纹理属性相关的物体的组合来生成 800 个文本提示，例如，“一个橡胶球和一个塑料瓶”。我们还通过 ChatGPT 生成了 200 个自然文本提示。

3.2 物体关系

在复杂场景中组合物体时，物体之间的关系是一个关键因素。我们分别介绍了 1,000 个用于空间关系和非空间关系的文本提示。

空间关系。我们使用“在侧面”，“旁边”，“附近”，“在左边”，“在右边”，“在底部”和“在顶部”来定义空间关系。两个名词从人物（例如，男人、女人、女孩、男孩、人，等等）、动物（例如，猫、狗、马、兔子、青蛙、乌龟、长颈鹿，等等）和物体（例如，桌子、椅子、汽车、碗、包、杯子、电脑，等等）中随机选择。对于包括左、右、下、上在内的空间关系，我们通过交换两个名词来构建对比提示，例如，“一个女孩在马的左边”和“一匹马在女孩的左边”。

非空间关系。非空间关系通常描述两个物体之间的交互。我们提示 ChatGPT 生成包含非空间关系的文本提示 ( e.g. ，“观看”，“与...交谈”，“穿着”，“拿着”，“拥有”，“看着”，“与...交谈”，“玩弄”，“与...一起走”，“站在...上”，“坐在...上” 等 ) 和任意名词。

3.3 复杂组合

为了测试文本到图像生成方法在开放世界中具有更自然和更具挑战性的组合提示，我们引入了 1000 个包含超出预定义模式的概念的复杂组合的文本提示。关于物体的数量，我们创建了包含两个以上物体的文本提示，例如“一个带有蓝色椅子、黑色桌子和黄色窗帘的房间”。就与物体相关的属性而言，我们可以使用多个属性来描述一个物体（表示为多个属性， e.g. ，“一个又大又绿的苹果和一张又高又木的桌子”），或者在文本提示中利用不同类型的属性（表示为混合属性， e.g. ，提示“一棵高树和一辆红色汽车”包含形状和颜色属性）。我们使用 ChatGPT 为以下四种情况中的每一种生成 250 个文本提示：两个物体具有多个属性、两个物体具有混合属性、两个以上物体具有多个属性以及两个以上物体具有混合属性。关系词可以在每种情况下被采用来描述两个或多个物体之间的关系。对于每种情况，我们将 175 个提示用于训练集，并将 75 个提示用于测试集。

4 评估指标

图 2：我们提出的评估指标的说明：（a）用于属性绑定评估的解耦 BLIP-VQA，（b）用于空间关系评估的 UniDet，以及（c）MiniGPT4-CoT 作为潜在的统一指标。

评估组合文本到图像生成具有挑战性，因为它需要全面而细粒度的跨模态理解。现有的评估指标利用在大型数据上训练的视觉语言模型进行评估。 CLIPScore [11, 12] 计算由 CLIP 提取的文本特征和生成图像特征之间的余弦相似度。 BLIP-CLIP [9] 的文本-文本相似度应用 BLIP [13] 为生成的图像生成标题，然后计算生成的标题和文本提示之间的 CLIP 文本-文本余弦相似度。这些评估指标可以衡量粗粒度的文本-图像相似性，但无法捕获属性绑定和空间关系中的细粒度文本-图像对应关系。为了解决这些限制，我们提出了用于组合式文本到图像生成的新的评估指标，如图 2 所示。具体来说，我们提出了分离式 BLIP-VQA 用于属性绑定评估，基于 UniDet 的指标用于空间关系评估，以及 3-in-1 指标用于复杂提示。我们进一步研究了诸如 MiniGPT-4 [15] 以及具有思维链 [16] 的多模态大型语言模型的潜力和局限性，用于组合性评估。

4.1 用于属性绑定评估的分离式 BLIP-VQA

我们观察到 BLIP-CLIP 评估的主要限制是 BLIP captioning 模型并不总是描述每个对象的详细属性。例如，BLIP captioning 模型可能会将图像描述为“一个有桌子、椅子和窗帘的房间”，而生成此图像的文本提示是“一个有黄色窗帘和蓝色椅子的房间”。因此，显式比较文本-文本相似性可能会导致歧义和混淆。

因此，我们利用 BLIP [13] 的视觉问答 (VQA) 能力来评估属性绑定。例如，给定用文本提示“一个绿色的长凳和一辆红色的汽车”生成的图像，我们分别提出两个问题：“一个绿色的长凳？”和“一辆红色的汽车？”。通过将复杂的文本提示明确地分解为两个独立的问题，其中每个问题只包含一个对象-属性对，我们避免了 BLIP-VQA 的混淆。 BLIP-VQA 模型将生成的图像和多个问题作为输入，我们将回答“是”的概率作为问题的得分。我们通过将每个问题的“是”的概率相乘来计算总分。所提出的分离式 BLIP-VQA 用于评估颜色、形状和纹理的属性绑定。

4.2 基于 UniDet 的空间关系评估

大多数视觉语言模型在推理诸如“左侧”和“右侧”之类的空间关系方面表现不佳。因此，我们引入了一个基于检测的空间关系评估指标。我们首先使用 UniDet [46] 来检测生成图像中的物体。然后，我们通过比较两个边界框中心的定位来确定两个物体之间的空间关系。分别将两个物体的中心表示为 ( x 1 , y 1 ) 和 ( x 2 , y 2 ) 。如果 x 1 < x 2 , | x 1 − x 2 | > | y 1 − y 2 | ，并且两个边界框之间的交并比（IoU）低于 0.1 的阈值，则第一个物体位于第二个物体的左侧。其他空间关系“右侧”、“顶部”和“底部”的评估方式类似。我们通过将两个物体中心的距离与阈值进行比较来评估“旁边”、“附近”和“侧面”。

4.3 用于复杂组合评估的 3 合 1 指标

由于不同的评估指标是为评估不同类型的组合性而设计的，因此没有一个指标适用于所有类别。我们通过经验发现，解耦 BLIP-VQA 最适合属性绑定评估，基于 UniDet 的指标最适合空间关系评估，而 CLIPScore 最适合非空间关系评估。因此，我们设计了一个 3 合 1 评估指标，该指标计算 CLIPScore、解耦 BLIP-VQA 和 UniDet 的平均得分，作为复杂组合的评估指标。

4.4 使用多模态大型语言模型进行评估

通过将预训练的视觉编码器与冻结的大型语言模型对齐，多模态大型语言模型，例如 MiniGPT-4 [15] ，在视觉语言跨模态理解方面展现出了强大的能力。我们利用 MiniGPT-4 结合思维链作为评估指标，将生成的图像输入模型，并提出两个问题：“描述图像”和“预测图像-文本对齐得分”。更多关于提示设计的信息在附录中提供。我们相信，更先进的多模态 LLM 在未来有可能成为一个统一的评估指标，但当前模型存在一些局限性，例如对图像的理解不准确以及幻觉问题。

5 方法

我们介绍了一种简单但有效的策略，称为“基于奖励样本选择的生成式模型微调 (GORS)”，以提高预训练文本到图像模型的组合能力。我们的方法通过生成高度与组合提示对齐的图像来微调预训练的文本到图像模型，例如 Stable Diffusion [1] ，其中微调损失由奖励加权，奖励被定义为组合提示和生成图像之间的对齐分数。

具体来说，给定文本到图像模型 p θ 和一组文本提示 y 1 , y 2 , ⋯ , y n ，我们首先为每个文本提示生成 k 张图像，从而生成 k n 张图像 x 1 , x 2 , ⋯ , x k n 。文本-图像对齐分数 s 1 , s 2 , ⋯ , s k n 被预测为奖励。我们选择奖励高于阈值的生成图像来微调文本到图像模型。选择的样本集表示为 𝒟 s 。在微调过程中，我们使用每个样本的奖励加权损失。与组合提示更匹配的生成图像被分配更高的损失权重，反之亦然。微调的损失函数为

其中 ( x , y , s ) 是图像、文本提示和奖励的三元组， z t 表示 x 在时间步 t 的潜在特征。我们采用 LoRA [47] 来进行高效的微调。

6 实验

6.1 实验设置

评估模型。我们评估了 6 种文本到图像模型在 Stable Diffusion v1-4 和 Stable Diffusion v2 [1] 上的性能，它们是训练于大量图像-文本对的文本到图像模型。 Composable Diffusion [7] 专门针对预训练扩散模型的概念连接和否定而设计。结构化扩散 [8] 和注意和激发 [9] 是为预训练扩散模型设计属性绑定而设计的。我们在 Stable Diffusion v2 上重新实现了这些方法，以实现公平的比较。 GORS 是我们提出的方法，它使用选定的样本及其奖励对 Stable Diffusion v2 进行微调。由于使用自动评估指标计算 GORS 的奖励会导致偏差结果，因此我们还提供了与评估指标不同的替代奖励模型（附录 D.3），记为 GORS-无偏。

实现细节。请在附录中找到实现细节。

6.2 评估指标

我们为 T2I-CompBench 中的每个文本提示生成 10 张图像，用于自动评估。

以前的指标。 CLIPScore [11, 12] (记为 CLIP ) 计算 CLIP 提取的文本特征和生成图像特征之间的余弦相似度。 BLIP-CLIP [9] (记为 B-CLIP ) 应用 BLIP [13] 为生成的图像生成标题，然后计算生成的标题和文本提示之间的 CLIP 文本-文本余弦相似度。 BLIP-VQA-naive (记为 B-VQA-n ) 应用 BLIP VQA 来问一个问题 (例如，一个绿色的长凳和一辆红色的汽车？) 与整个提示一起。

我们提出的指标。解耦 BLIP-VQA (记为 B-VQA ) 是我们提出的属性绑定评估指标。 UniDet 是我们提出的基于 UniDet 的空间关系评估指标。 3-in-1 计算 CLIPScore、Disentangled BLIP-VQA 和 UniDet 的平均得分，作为复杂构成的评估指标。 MiniGPT4-Chain-of-Thought （表示为 mGPT-CoT ）作为所有类型基于多模态 LLM 的组合提示的潜在统一指标。

人工评估。为了对每个子类别进行人工评估，我们随机选择 25 个提示，并为每个提示生成 2 张图像，总共生成 300 张图像，每个模型生成 150 个提示。测试集包括每个子类别 300 个提示，总共 1800 个提示。人工评估的提示采样率为 8.33 % 。我们利用 Amazon Mechanical Turk 并要求三名工作者根据图像文本对齐独立地对每个生成的图像文本对进行评分。工作者可以选择 { 1 , 2 , 3 , 4 , 5 } 的分数，我们通过将分数除以 5 来对其进行归一化。