专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

GALIP：用于文本到图像合成的生成对抗CLIP

FightingCV · 公众号 · 算法科技媒体 · 2024-11-30 09:00

正文

摘要

从文本合成高保真复杂图像是一个挑战。基于大规模预训练，自回归和扩散模型可以合成逼真的图像。尽管这些大型模型取得了显著进展，但仍然存在三个缺陷。 1) 这些模型需要大量的训练数据和参数才能取得良好的性能。 2) 多步骤生成设计严重减慢了图像合成过程。 3) 合成的视觉特征难以控制，需要精心设计的提示。为了实现高质量、高效、快速和可控的文本到图像合成，我们提出了生成对抗CLIP，即GALIP。 GALIP 利用强大的预训练CLIP模型，在判别器和生成器中都使用它。具体来说，我们提出了一个基于CLIP的判别器。 CLIP 的复杂场景理解能力使判别器能够准确地评估图像质量。此外，我们提出了一个CLIP赋能的生成器，它通过桥接特征和提示从CLIP中诱导视觉概念。集成CLIP的生成器和判别器提高了训练效率，因此，我们的模型只需要大约 3 % 训练数据和 6 % 可学习参数，就能实现与大型预训练自回归和扩散模型相当的结果。此外，我们的模型实现了 ∼ 120 × 倍更快的合成速度，并继承了GAN的平滑潜在空间。广泛的实验结果证明了我们GALIP的优异性能。代码可在https://github.com/tobran/GALIP获取。

1 引言

在过去的几年里，我们见证了生成模型在各种应用中的巨大成功 [45, 4] 。其中，文本到图像合成 [15, 19, 3, 33, 18, 28, 29, 57, 50, 20, 48, 21, 25, 46, 49] 是最吸引人的应用之一。它根据给定的语言指导生成高保真图像。由于语言对用户的便捷性，文本到图像的合成吸引了许多研究人员，并成为一个活跃的研究领域。

图1： (a) 现有的文本到图像GAN从头进行对抗性训练。 (b) 我们提出的GALIP基于集成的CLIP模型进行对抗性训练。

基于大规模的数据集、模型规模和预训练，最近提出的大型预训练自回归和扩散模型，例如 DALL-E [33] 和LDM [35] ，展现了令人印象深刻的生成复杂场景的能力，并显著优于之前的文本到图像GAN。尽管这些大型预训练生成模型取得了显著进展，但它们仍然存在三个缺陷。首先，这些模型需要大量的训练数据和参数进行预训练。大量的數據和模型規模带来了极高的计算成本和硬件需求，使得许多研究人员和用户无法访问。其次，大型模型的生成速度远慢于GANs。逐符元生成和渐进式去噪需要数百个推理步骤，并使生成的結果严重滞后于语言输入。第三，它不像GANs那样具有直观的平滑潜在空间，该空间将有意义的视觉属性映射到潜在向量。多步生成设计打破了合成过程，并分散了有意义的潜在空间。这使得合成过程需要精心设计的提示来控制。

为了解决上述局限性，我们重新思考了生成对抗网络 (GAN)。 GAN 比自回归和扩散模型快得多，并且具有平滑的潜在空间，这使得合成更可控。然而，GAN 模型以训练可能不稳定以及生成多样性较低而闻名 [6] 。这使得当前的文本到图像 GAN 在复杂场景下合成质量不令人满意。

图 2：与潜在扩散模型 (LDM) [35] 相比，我们的 GALIP 在只有 3.2 亿个参数（0.08B 可训练参数 + 0.24B 冻结 CLIP 参数）和 1200 万个训练数据的情况下，实现了可比的零样本 Fréchet Inception 距离 (ZS-FID)。此外，我们的 GALIP 只需要 0.04 秒就能合成一张图像，比 LDM 快 ∼ 120 × 倍。速度是在 NVIDIA 3090 GPU 和 Intel Xeon Silver 4314 CPU 上计算的。

在这项工作中，我们将预训练的 CLIP [30] 引入文本到图像 GAN。 CLIP 的大规模预训练带来了两大优势。首先，它增强了对复杂场景的理解能力。预训练数据集包含许多不同场景下的复杂图像。配备视觉 Transformer (ViT) [8] 后，图像编码器可以在充分预训练后从复杂图像中提取信息丰富且有意义的视觉特征，以匹配相应的文本描述。其次，大型预训练数据集还带来了优异的领域泛化能力。它包含各种类型的图像，例如照片、绘画、卡通和素描，这些图像收集自各种公开可用的来源。各种图像使CLIP模型能够将不同类型的图像映射到共享的概念，并实现令人印象深刻的领域泛化和零样本迁移能力。 CLIP的这两个优点，即复杂场景理解和领域泛化能力，促使我们构建一个更强大的文本到图像模型。

我们提出了一种新的文本到图像生成框架，名为生成对抗CLIP（GALIP）。如图 1 所示，GALIP在判别器和生成器中都集成了CLIP模型 [30] 。具体来说，我们提出了基于CLIP的判别器和CLIP赋能的生成器。基于CLIP的判别器继承了CLIP [30] 的复杂场景理解能力。它由一个冻结的基于ViT的CLIP图像编码器（CLIP-ViT）和一个可学习的配对判别器（Mate-D）组成。 Mate-D与CLIP-ViT配对进行对抗训练。为了保留CLIP-ViT中复杂场景理解的知识，我们冻结其权重，并收集来自不同层的预测CLIP图像特征。然后，Mate-D从收集的CLIP特征中进一步提取信息丰富的视觉特征，以区分合成图像和真实图像。基于CLIP-ViT的复杂场景理解能力和Mate-D的持续分析，基于CLIP的判别器可以更准确地评估生成的复杂图像的质量。

此外，我们提出了CLIP赋能的生成器，它发挥了CLIP [30] 的领域泛化能力。生成器直接合成复杂图像很困难。一些工作采用素描 [10] 和布局 [20, 22] 作为桥接域来减轻难度。但是，这种设计需要额外的标注数据。与这些工作不同，CLIP [30] 的出色域泛化能力让我们意识到，可能存在一个隐式桥接域，它更容易合成，但可以通过 CLIP-ViT 映射到相同的视觉概念。因此，我们设计了 CLIP 赋能的生成器。它由一个冻结的 CLIP-ViT 和一个可学习的伴侣生成器 (Mate-G) 组成。 Mate-G 首先从文本和噪声中预测隐式桥接特征。然后桥接特征将通过 CLIP-ViT 映射到视觉概念。此外，我们在 CLIP-ViT 中添加了一些文本条件提示以进行任务适应。预测的视觉概念缩小了文本特征和目标图像之间的差距，从而增强了复杂的图像合成能力。

如图 2 所示，所提出的 GALIP 在基于明显更小的可训练参数和训练数据的情况下，实现了 ∼ 120 × 倍更快的合成速度和相当的合成能力。

总体而言，我们的贡献可以概括如下：

•

我们提出了一种高效、快速且更可控的文本到图像合成模型，它可以合成高质量的复杂图像。
•

我们提出了基于 CLIP 的鉴别器，它可以更准确地评估生成复杂图像的质量。
•

我们提出了 CLIP 赋能的生成器，它基于文本特征和预测的 CLIP 视觉特征合成图像。
•

广泛的实验表明，所提出的 GALIP 可以在基于明显更小的计算成本的情况下，实现与大型预训练模型相当的性能。

图 3 : 提出的用于文本到图像合成的 GALIP 的架构。凭借基于 CLIP 的鉴别器和 CLIP 赋能的生成器，我们的模型可以合成更逼真的复杂图像。

2 相关工作

文本到图像 GAN。 GAN-INT-CLS [34] 首次采用条件 GAN 从文本描述中合成图像。为了实现更高分辨率的合成，StackGAN [54, 55] 、AttnGAN [48] 和 DM-GAN [57] 堆叠了多个生成器和判别器。 Tao 等人 [42] 提出了一个更简单但有效的文本到图像框架，称为 DF-GAN，它能够进行单阶段高分辨率生成。 LAFITE [56] 引入了 CLIP 文本图像对比损失用于文本到图像训练，并在 CC3M [40] 上取得了显著改进。

文本到图像大型模型。最近，大型预训练的自回归和扩散模型在文本到图像合成方面表现出令人印象深刻的性能。 DALL-E [33] 、CogView [6] 和 M6 [23] 利用 VQ-VAE [43] 或 VQ-GAN [9] 将图像分解为离散的图像符元。然后，他们将单词符元和图像符元结合在一起，预训练一个大型单向 Transformer 用于自回归生成。 Parti [51] 提出了一个序列到序列的自回归模型，将文本到图像合成视为翻译任务。 Cogview2 [7] 采用分层 Transformer 和局部并行自回归生成，以实现更快的自回归图像生成。一些研究试图采用扩散模型 [41, 5, 13, 14, 26] 来克服自回归模型的缓慢生成缺陷。 VQ-Diffusion [11] 将 VQ-VAE [43] 和扩散模型 [14, 26] 结合起来，消除单向偏差并避免累积预测误差。 GLIDE [27] 将引导扩散应用于文本条件图像合成问题。 DALL-E2 [32] 结合了 CLIP 表示和扩散模型，构建了一个 CLIP 解码器。潜在扩散模型 (LDM) [35] 将扩散模型应用于潜在空间，以便在保留图像质量的同时，使用有限的计算资源进行训练。这种特定的文本到图像 LDM 是 Stable Diffusion [36] ，它是一个受欢迎的开源项目，并提供了一个易于使用的界面。 Imagen [38] 引入了大型语言模型 [31] 来提供高质量的文本特征，并为扩散模型提出了一个高效的 U-Net。

3 生成对抗性 CLIP

在本文中，我们提出了一种名为生成对抗性 CLIP (GALIP) 的文本到图像合成的新框架。为了合成高质量的复杂图像，我们提出： (i) 基于 CLIP 的新型鉴别器，它继承了 CLIP [30] 复杂场景理解的能力，从而更准确地评估图像质量。 (ii) 一种新型的 CLIP 增强生成器，它利用了 CLIP [30] 的领域泛化能力，并诱导 CLIP 视觉概念来缩小文本和图像特征之间的差距。在本节的后续部分，我们将首先介绍 GALIP 的整体结构。然后，我们将详细介绍基于 CLIP 的鉴别器和 CLIP 增强的生成器。

3.1 模型概述

如图 3 所示，提出的 GALIP 由一个 CLIP 文本编码器、一个基于 CLIP 的鉴别器和一个 CLIP 增强的生成器组成。预训练的 CLIP 文本编码器接收文本描述并生成一个全局句子向量 𝑻 。在文本编码器之后是 GAN 框架下的 CLIP 增强生成器和基于 CLIP 的鉴别器。 CLIP 增强生成器由一个冻结的 CLIP-ViT 和一个伴侣生成器 (Mate-G) 组成。 Mate-G 中有三个主要模块，桥特征预测器 (Bridge-FP)、提示预测器和图像生成器。 CLIP 增强生成器有两个输入，一个是从文本编码器编码的句子向量 𝑻 ，另一个是从高斯分布中采样的噪声向量 𝒁 。噪声向量确保了合成图像的多样性。在CLIP增强的生成器中，句子向量和噪声首先被送入桥接特征预测器。桥接特征预测器将句子向量和噪声转换为CLIP-ViT的桥接特征。此外，我们还在CLIP-ViT中的Transformer模块（TransBlock）中添加了几个文本条件提示，用于任务适配。最后，图像生成器利用预测到的视觉概念、桥接特征、句子和噪声向量来合成高质量的图像。

图4 : 用于文本到图像合成的提出的Mate-D架构。它进一步从收集到的CLIP特征中提取信息丰富的视觉特征，并更准确地评估图像质量。

基于CLIP的鉴别器由一个冻结的CLIP-ViT和一个Mate-D鉴别器组成。 CLIP-ViT通过卷积层和一系列Transformer模块将图像转换为图像特征。 Mate-D中的CLIP特征提取器(CLIP-FE)从CLIP-ViT的不同层收集图像特征。然后，它进一步从收集到的CLIP特征中提取信息丰富的视觉特征，用于质量评估器。最后，质量评估器将根据提取的信息特征和句子向量预测对抗性损失。通过区分合成图像和真实图像，鉴别器促使生成器合成更高质量的图像。

3.2 基于CLIP的鉴别器

在本节中，我们详细介绍了所提出的基于CLIP的鉴别器，它由一个冻结的CLIP-ViT和一个Mate-D组成。基于 CLIP 的鉴别器继承了来自冻结的 CLIP-ViT 的复杂场景理解能力。此外，我们提出了 Mate-D，它与 CLIP-ViT 配对，以进一步提取信息丰富的视觉特征并区分真实和合成图像。 CLIP-ViT 和 Mate-D 使鉴别器能够更准确地评估生成的复杂图像的质量。

如图 4 所示，Mate-D 由 CLIP-FE 和质量评估器组成。为了充分利用 CLIP-ViT 中的复杂场景理解知识，CLIP-FE 从多层获取 CLIP 图像特征。为 CLIP-FE 收集了 N 个 CLIP 特征。我们将它们命名为 CLIP 特征 1 到 N ，它们是从 CLIP-ViT 中的浅层到深层收集的。为了从这些 CLIP 特征中进一步提取信息丰富的视觉特征，我们设计了一个 CLIP-FE。它包含一系列提取块，每个块包含两个卷积层和两个 ReLU 激活函数。提取的图像特征与捷径和下一个 CLIP 特征相加。 CLIP-FE 中堆叠了 N − 1 个提取块。由于 CLIP 特征 N 仅添加到最后一个提取块中的处理后的图像特征中。为了融合 CLIP 特征 N ，我们在后面添加了两个没有 CLIP 特征添加的卷积层。 CLIP-FE 为质量评估器提取信息丰富的视觉特征。然后复制句子向量并将其与提取的图像特征连接。通过两个卷积层预测对抗性损失以评估图像质量。此外，为了稳定Mate-D的对抗学习过程，我们对收集到的CLIP特征和相应的文本特征应用了匹配感知梯度惩罚（MAGP） [42] 。

基于CLIP-ViT强大的复杂场景理解能力，基于CLIP的判别器可以从复杂图像中提取更多信息丰富的视觉特征。质量更高的提取视觉特征使判别器更容易检测到不真实的图像部分，从而提高了判别效率，促使生成器生成更逼真的图像。

3.3 CLIP增强型生成器

本节详细介绍了我们提出的CLIP增强型生成器，它由一个冻结的CLIP-ViT和一个Mate-G组成。 CLIP增强型生成器发挥了CLIP-ViT的域泛化能力。此外，我们提出了Mate-G，它与CLIP-ViT配对，以从CLIP-ViT中诱导有用的视觉特征，并根据文本和诱导的视觉特征生成图像。 Mate-G由桥接特征预测器（Bridge-FP）、提示预测器、冻结的CLIP-ViT和图像生成器组成（见图 3 ）。我们接下来将详细介绍它们。

图5 ：用于文本到图像合成的提出的CLIP增强型生成器的架构。利用桥接特征预测器和提示预测器，它可以从冻结的CLIP-ViT中诱导有意义的视觉概念以进行图像合成。

桥接特征预测器。 Bridge-FP的结构如图 5 所示，用红色虚线框突出显示。 Bridge-FP由一个全连接层（FC）和 M 融合块（F-BLKs）组成。输入噪声被送入全连接层并重塑为 ( 7 , 7 , 64 ) 作为初始桥接特征。全连接层输出的初始桥接特征仍然包含大量噪声。因此，我们应用一系列 F-BLK 来融合文本信息，使其更有意义。 F-BLK 由两个卷积层 (Conv) 和两个深度文本-图像融合块 (DFBlock) [42] 组成。 DFBlock 已证明其通过堆叠仿射变换融合文本和图像特征的有效性。因此，我们采用它来融合文本特征和中间桥接特征。 F-BLK 中有一个快捷添加，用于有效的信息传播和梯度反向传播。通过 Bridge-FP，句子和噪声向量将被转换为桥接特征，该特征被调整以从 CLIP-ViT 中引入有意义的视觉概念。

提示预测器。 CLIP-ViT 预先训练用于从图像数据预测视觉特征。文本和图像数据之间存在巨大差距。为了缓解从文本特征转换桥接特征的难度，我们采用提示调优 [16] ，它已证明对 ViT 的域迁移有效。我们设计了一个提示预测器，它通过全连接层根据句子和噪声向量预测提示。预测的文本条件提示被附加到 CLIP-ViT 中的视觉补丁嵌入后面。此外，我们发现最好不要在 CLIP-ViT 的最后几层添加提示。最后几层总结了视觉特征并输出最后的图像表示。在最后几层从文本和噪声中预测的提示可能会影响其性能。

图像生成器。图像生成器由 K 个生成块 (G-BLK) 组成。我们通过快捷方式加法对预测的视觉概念和桥接特征进行求和，以实现有效的信息传播和梯度反向传播。图像生成器接收求和后的视觉特征作为输入，并通过每个 G-BLK 中的 DFBlocks [42] 融合句子和噪声向量。在生成过程中，中间图像特征通过上采样层变得更大。最后，图像特征被转换为高分辨率的 RGB 图像。

3.4 目标函数

为了稳定对抗性学习的训练过程，我们采用了铰链损失 [52] 和单向鉴别器 [42] 。最后，我们 GALIP 的整体公式如下所示：

其中 z 是从高斯分布中采样的噪声向量； e 是句子向量； G 是 CLIP 赋能的生成器； D 是 Mate-D； C 是 CLIP 基于鉴别器中冻结的 CLIP-ViT； S 表示 CLIP 的编码视觉和文本特征之间的余弦相似度； k 和 p 是梯度惩罚的两个超参数； λ 是文本-图像相似度的系数； ℙ g 、 ℙ r 、 ℙ m i s 分别表示合成数据分布、真实数据分布和不匹配数据分布。

图 6：由 LAFITE [56] 、VQ-Diffusion [11] 和我们提出的 GALIP 生成的图像示例，这些图像以 CUB 和 COCO 数据集测试集中的文本描述为条件。

4 实验

在本节中，我们介绍了实验中使用的数据集、训练细节和评估指标，然后对我们提出的 GALIP 及其变体进行定量和定性评估。

数据集。我们在四个具有挑战性的数据集上进行了实验：CUB 鸟 [44] 、COCO [24] 、CC3M [40] 和 CC12M [2] 。对于 CUB 鸟类数据集，共有 11,788 张图像，属于 200 种鸟类，每张图像对应十个语言描述。 CUB 鸟类数据集的训练和验证划分与以前的工作一致 [54, 55, 48, 57, 42] 。由于 CUB 数据集中有各种形状、颜色和姿态的鸟类，因此它总是被用来评估细粒度内容合成的性能。对于 COCO 数据集，它包含 80,000 张用于训练的图像和 40,000 张用于测试的图像。每张图像对应 5 个语言描述。 COCO 数据集中的图像很复杂，并且总是包含不同场景下的多个物体。 COCO 数据集一直被用于最近的工作中，用来评估复杂图像合成的性能。对于 CC3M 和 CC12M 数据集，它们是两个大型数据集，包含大约 300 万和 1200 万个文本图像对。它总是被用于预训练和评估文本到图像模型的零样本性能。

训练和评估细节。我们选择 ViT-B/32 [30] 模型作为我们 GALIP 中的 CLIP 模型。在基于 CLIP 的鉴别器中，CLIP-FE 从 CLIP-ViT 的第 2 ^nd 、第 5 ^th 、第 9 ^th 层收集 CLIP 特征。 CLIP-FE 中堆叠了两个提取块。在 CLIP 增强的生成器中，Bridge-FP 包含 4 个融合块，图像生成器包含 6 个生成块，用于 224 × 224 图像合成。提示预测器预测 CLIP-ViT 中 TransBlocks 2 到 10 的 8 个提示。我们对这些设计进行了一些消融研究。判别器 k 和 p 的超参数分别设置为2和6，如 [42] 所示。生成器 λ 的超参数对所有数据集都设置为4。此外，我们使用Adam优化器 [17] 以及 β 1 = 0.0 和 β 2 = 0.9 来训练我们的模型。根据双时间尺度更新规则(TTUR) [12] ，生成器的学习率设置为0.0001，判别器的学习率设置为0.0004。遵循之前的文本到图像工作 [48, 57, 42, 47] ，我们采用Fréchet起始距离(FID) [12] 和CLIPSIM [47] 来评估图像保真度和文本图像语义一致性。所有GALIP模型都在8 × 3090个GPU上训练。我们分别在CUB、COCO、CC3M和CC12M数据集上训练我们的GALIP 0.5、1.5、2和3天。

表1：与CUB和COCO测试集上的最先进方法相比，FID和CLIPSIM (CS)的结果。

Model	CUB		COCO
Model	FID ↓	CS ↑	FID ↓	CS ↑
DM-GAN [57]	16.09	-	32.64	-
XMC-GAN [53]	-	-	9.30	-
DAE-GAN [37]	15.19	-	28.12	-
DF-GAN [42]	14.81	0.2920	19.32	0.2972
LAFITE [56]	14.58	0.3125	8.21	0.3335
VQ-Diffusion [11]	10.32	-	13.86	-
GALIP (Ours)	10.08	0.3164	5.85	0.3338

4.1 定量评估

为了评估我们GALIP的性能，我们将提出的模型与几种最先进的方法 [57, 53, 37, 56, 42, 11] 进行了比较，这些方法在文本到图像合成方面取得了令人印象深刻的结果。结果如表 1 所示。与其他领先模型相比，我们的GALIP在CUB和COCO数据集上都有显著的改进。特别是，与最近提出的LAFITE [56] (它采用CLIP文本图像对比损失进行文本到图像训练)相比，我们的GALIP将CUB数据集上的FID指标从14.58降低到10.08，并将CLIPSIM (CS)从0.3125提高到0.3164。此外，我们的GALIP显著降低了COCO的FID，从8.21降低到5.85。与采用扩散模型进行文本到图像合成的VQ-diffusion [11] 相比，我们的GALIP在CUB数据集上也使FID从10.32降低到10.08，并显著降低了COCO的FID，从13.86降低到5.85。对CUB和COCO数据集的定量比较表明，我们的GALIP在合成高保真图像方面更有效，尤其是在复杂的图像生成方面。

图7：来自GALIP (CC12M)和潜在扩散模型(LAION-400M) [35, 36] 的文本到图像样本。我们从每个给定的文本描述中采样16张图像，并随机选择一张作为最终生成结果。

表2：我们在COCO测试数据集上，比较了大型预训练自回归模型(AR)、扩散模型(DF)和GANs在零样本设置下的性能。

Model	Type	Param [B]	Data size [M]	ZS-FID ↓
DALL-E [33]	AR	12	250	27.5
Cogview [6]	AR	4	30	27.1
Cogview2 [7]	AR	6	30	24.0
Parti-350M [51]	AR	0.35	>800	14.10
Parti-20B [51]	AR	20	>800	7.23
GLIDE [27]	DF	5	250	12.24
LDM [35]	DF	1.45	400	12.63
DALL·E 2 [32]	DF	6.5	250	10.39
Imagen [38]	DF	7.9	860	7.27
eDiff-I [1]	DF	9.1	1000	6.95
LAFITE [56]	GAN	0.15+0.08	3	26.94
GALIP (CC3M)	GAN	0.24+0.08	3	16.12
GALIP (CC12M)	GAN	0.24+0.08	12	12.54

此外，我们评估了我们GALIP的零样本文本到图像合成能力。结果如表 2 所示。与在CC3M上训练的LAFITE [56] 相比，我们的GALIP (CC3M)将FID从26.94显著降低到16.12。这表明，在生成器和判别器中集成CLIP模型比仅为GAN模型引入CLIP损失更有效。与使用更大模型尺寸和数据集进行预训练的自回归模型(AR)和扩散模型(DF)相比，我们的GALIP也取得了具有竞争力的性能。特别是，与LDM [35] (这是最重要的开源大型预训练模型之一)相比，即使我们的GALIP模型参数和数据量都小得多，其性能也更好。此外，如图 2 所示，我们的GALIP只需要0.04秒就能生成一张图像，比LDM [35] 快 ∼ 120 × 倍。此外，我们的GALIP可以在CPU上快速进行推理，无需其他加速设置。这大大降低了用户的硬件要求。此外，预训练我们的GALIP的计算成本远低于这些大型预训练的自回归和扩散模型。 CC12M的GALIP仅在8 × 个3090GPU上进行了3天的预训练。但是，这些模型需要数百个 GPU 和数周时间来进行预训练。

4.2 定性评估

为了评估合成图像的视觉质量，我们首先比较了在 COCO 上训练的 LAFITE [56] 、VQ-Diffusion [11] 和我们的 GALIP 所合成的图像，如图 6 所示。然后，我们在图 7 中比较了我们的 GALIP (CC12M) 和 LDM (LAION-400M) [35, 36] 。

如图 6 的第 1 ^st 、2 ^nd 、4 ^th 和 5 ^th 列所示，LAFITE [56] 和 VQ-Diffusion [11] 合成的鸟包含断裂或错误的形状。此外，LAFITE [56] 和 VQ-Diffusion [11] 都丢失了一些细粒度的视觉特征（例如，第 1 ^st 、2 ^nd 、5 ^th 和 6 ^th 列），这使得合成图像缺乏细节，看起来不真实。然而，我们 GALIP 合成的图像具有正确的物体形状和清晰的细粒度内容。

在包含各种形状和多个物体的复杂 COCO 图像中，这种优越性更加明显。如图 7 的第 7 ^th 、8 ^th 、9 ^th 、10 ^th 列所示，LAFITE [56] 和 VQ-Diffusion [11] 模型无法合成“火车”、“儿童”、“女人”和“毛绒熊”的正确形状。此外，它们也无法合成“炫耀玩具手机”和“坐在书架上”的正确视觉概念。然而，利用我们提出的基于 CLIP 的 D 和 CLIP 增强的 G，我们的 GALIP 可以应对更严格的视觉要求，合成不同物体（见第 8 ^th 、9 ^th 、10 ^th 和 12 ^th 列）的各种形状，并在合成图像中呈现正确的视觉概念。我们还观察到 LAFITE [56] 和 VQ-Diffusion [11] 也无法合成正确的人脸特征。例如，如第 8 ^th 、9 ^th 、12 ^th 列所示，它们无法合成逼真的人脸。但我们的 GALIP 可以正确地合成这些特征。

此外，我们在图 7 中比较了 LDM (LAION-400M) [35, 36] 和我们的 GALIP (CC12M) 合成的图像。如图 7 的第 1 ^st 、4 ^th 、5 ^th 、8 ^th 、11 ^th 列所示，LDM 无法生成文本中描述的物体（“鬼魂”、“泰迪熊”、“调制解调器”、“人”、“模型”），但我们的 GALIP 可以正确地合成这些物体。此外，我们的模型可以在第3 ^rd 、第6 ^th 、第7 ^th 和第10 ^th 生成正确的视觉特征，例如“闪闪发光的眼睛”、“蓝色灯塔”、“微笑的雕像”和“惊讶的女孩”。此外，如图 7 的第9 ^th 、第10 ^th