专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

CLIP-SR：用于超分辨率的协同语言和图像处理

FightingCV · 公众号 · · 2024-12-23 09:00

正文

摘要

卷积神经网络 (CNN) 已经推动了图像超分辨率 (SR) 的发展，但是大多数基于 CNN 的方法仅仅依赖于基于像素的变换，这常常会导致伪影和模糊，尤其是在严重下采样（例如，8 × 或 16 × ）的情况下。最近的文本引导 SR 方法试图利用文本信息来增强细节，但是它们常常难以实现有效的对齐，导致语义一致性不佳。为了解决这些限制，我们提出了一种多模态语义增强方法，该方法将文本语义与视觉特征相结合，有效地解决了高度退化的 LR 图像中的语义错配和细节丢失问题。我们提出的多模态协作框架能够在显著的放大因子下生成逼真且高质量的 SR 图像。该框架集成了文本和图像输入，采用提示预测器、文本-图像融合块 (TIFBlock) 和迭代细化模块以及 CLIP（对比语言-图像预训练）特征来指导具有细粒度对齐的渐进式增强过程。这种对齐即使在较大的缩放因子下也能产生具有清晰细节和语义一致性的高分辨率输出。通过大量的对比实验和消融研究，我们验证了我们方法的有效性。此外，通过结合文本语义指导，我们的技术能够在保持语义一致性的同时实现一定程度的超分辨率可编辑性。

索引词：

图像超分辨率、CLIP、多模态融合、语言引导

I 引言

卷积神经网络 (CNN) 的出现极大地推动了图像超分辨率 (SR) 领域的发展 [1, 2, 3, 4, 5, 6] 。早期的基于 CNN 的 SR 方法仅依靠低分辨率 (LR) 图像来重建高分辨率 (HR) 图像，常常难以提高重建质量。为了克服这些限制，后续的研究 [7, 8, 9, 10, 11, 12, 13, 14, 15] 引入了先验信息来指导 SR 过程，旨在弥补 LR 图像中缺失的细节。基于先验的方法虽然已经证明有所改进，但它们往往局限于特定类型的图像，例如具有明确结构或属性的图像（例如，人脸图像）。此外，像SFTGAN [16] 这样的方法，利用语义分割图来辅助超分辨率重建，往往会带来额外的计算成本，并且高度依赖于分割过程的准确性。

图1：我们方法从低分辨率输入 (LR) 中恢复的可视化结果。我们通过与高分辨率 (HR) 真实值对齐文本指导，突出显示语义一致性部分。

为了解决这些局限性，使用文本描述作为一种语义指导的形式已成为一种更灵活和全面的替代方案。文本提供了更丰富和更详细的语义信息，可以指导更广泛范围的图像的超分辨率过程。 TGSR [17] 是最早探索这种方法的研究，使用文本增强超分辨率图像细节生成。然而，这种方法仍然存在挑战，尤其是在实现有效的文本图像特征匹配和语义对齐方面，导致输入LR图像和生成的SR结果之间存在不一致。在本文中，我们提出了一种新方法，该方法确保语义一致性，同时实现大规模超分辨率。我们的方法利用文本描述来指导超分辨率过程，确保重建的HR图像在语义上连贯且视觉上逼真。如图 1 所示，我们的方法解决了先前方法的局限性，为高保真超分辨率提供了一种稳健的解决方案。

图2：我们与两种SOTA超分辨率方法：DICGAN [18] 和CRAFT [19] 的图像超分辨率比较示例。 16 × 在这里，DICGAN和CRAFT使用与我们相同的数据库重新训练；LR是输入低分辨率图像，GT是高分辨率真实值（为了可视化目的进行了适当的放大）。

为了解决基于先验的方法的局限性和无效的文本图像特征匹配带来的挑战，尤其是在处理现实场景中大规模分辨率退化和高语义模糊的情况下，我们引入了一种新方法：用于超分辨率 (SR) 的多模态协作语义增强。我们并没有将相关文本仅仅视为先验指导，而是将文本信息与LR图像结合起来，作为超分辨率任务的两种模态输入。结合这些模态可以增强局部语义并实现高性能的大规模超分辨率。具体来说，我们引入了一个提示预测器，用于从文本中提取重要的语义元素。受VPT [20] 和GALIP [21] 的启发，提示预测器包含一个全连接层和一个自注意力机制，作为文本驱动的注意力模块。与直接将原始文本向量输入预训练的CLIP-ViT不同，提示预测器生成的细化文本向量使CLIP-ViT能够实现文本和图像之间语义特征的增强对齐，从而提高跨模态表示的质量。

为了进一步优化文本图像交互，我们引入了TIFBlock，这是一种新颖的对齐融合模块，专门用于增强跨模态集成。利用CLIP [22] 等预训练模型进行初始特征提取，TIFBlock有效地合成和细化这些表示，从而显着提高文本到图像匹配性能。在TIFBlock的基础上，我们开发了一个迭代细化模块，这是一个专门用于迭代细节恢复和语义增强的结构。该模块逐步细化局部细节，解决模糊区域，同时保持迭代间的语义一致性。迭代细化模块的核心组成部分是包含一个针对我们框架定制的残差连接，这有助于平滑的特征传播，同时保持语义完整性。定制的残差连接无缝地集成到此模块中，以进一步优化像素转换和特征传播，确保强大的多模态融合。总之，这些组件与我们的设计目标相一致，实现了模态之间无缝且有效的协作。

通过以语言信息的方式有效地结合与给定LR图像相关的文本描述，所提出的方法生成了高度详细的超分辨率结果。如图 2 所示，我们展示了将我们的方法应用于严重缩小的面部图像的典型示例，该图像具有 16 × 的超分辨率因子。与两种最先进的超分辨率方法相比，我们的方法展示了具有竞争力的性能。此外，所提出的方法具有很强的可解释性和与提供的文本描述的语义一致性。

本文的主要贡献如下：

•

我们提出了一种用于大规模图像超分辨率的新型多模态语义一致性方法，该方法从严重退化的低分辨率输入中生成语义一致且逼真的高分辨率图像。
•

我们设计了一种新颖的文本图像融合块（TIFBlock），并将其与预训练的跨模态模型集成，以创建一个迭代协同融合结构，使我们的框架在增强局部语义的同时逐步恢复图像细节。
•

我们研究了不同的文本语义对图像超分辨率的影响。综合比较实验和消融研究验证了我们超分辨率方法的有效性，同时保持了语义一致性。

二相关工作

二-A 基于先验的图像超分辨率

单图像超分辨率 (SR) 已成为端到端深度学习领域中的一个动态研究方向 [23] 。各种模型和机制的发展显著改进了超分辨率方法，尤其是在像素重建和细节逼近方面。早期的超分辨率方法 [4, 24, 25, 26, 27, 28] 通常假设低分辨率 (LR) 图像像素是通过对高分辨率 (HR) 图像进行双三次下采样获得的。这些方法采用各种深度映射网络直接从低分辨率输入重建超分辨率图像像素。虽然这些方法在具有小规模退化问题的合成数据上可以取得令人满意的结果，但在现实世界的大规模退化场景中，由于低分辨率语义的全部或部分丢失，它们的有效性会显著下降。

为了提高在现实世界超分辨率场景中的性能，人们提出了许多基于先验的方法，这些方法利用显式或隐式先验来丰富细节生成。一种具有代表性的显式方法是基于参考的超分辨率 [29, 30, 31, 32] ，它利用一个或多个与输入低分辨率图像具有相似纹理的高分辨率参考图像来指导高分辨率输出的生成。然而，将参考的特征与低分辨率输入匹配可能具有挑战性，并且这些显式先验可能不可用。

最近的方法，包括FSRNet [7] 、DeepSEE [11] 、SFTGAN [8] 、TGSR [17] ，已经转向利用隐式先验，通过将先验信息直接整合到超分辨率过程中来取得更好的结果。例如，FSRNet [7] 利用几何先验来改善人脸图像超分辨率效果，而Zhang 等人 [33] 则利用多视角一致性。 DeepSEE [11] 利用语义图来探索极端图像超分辨率。SFTGAN [8] 引入图像分割掩码作为人脸图像超分辨率的先验特征，而TGSR [17] 则采用文本语义作为先验条件来引导图像超分辨率。尽管有效，但这些隐式先验通常针对特定情况进行定制，例如受限类别 [34, 35] 或人脸图像 [7, 8, 36, 37] ，这限制了它们在更复杂、现实世界的超分辨率任务中的适用性。

II-B 多模态融合引导的图像生成

多模态融合在各种视觉任务中变得越来越普遍，例如图像生成、风格迁移和图像编辑。例如，关键点通常用于运动生成 [38] 和自动化妆应用 [39] 。在基于文本的图像合成中，GAN-INT-CLS [40] 利用文本描述使用条件生成对抗网络 (cGANs) 生成图像。为了提高图像质量，Stack-GAN [41] 、AttnGAN [42] 和 DM-GAN [43] 利用多个生成器和判别器。 DF-GAN [44] 通过更简化和有效的方法简化了文本到图像的合成。 LAFITE [45] 引入了一种基于 CLIP 模型 [22] 的对比损失，为生成精确的图像提供了更准确的指导。在艺术风格迁移中，CLIPstyler [46] 能够从文本描述到源图像进行领域无关的纹理迁移，而 CLVA [47] 则采用基于块的风格判别器从风格指令中提取视觉语义，实现详细和局部化的艺术风格迁移。对于文本引导的图像编辑，SISGAN [48] 开创了使用编码器-解码器架构进行基于文本的语义编辑的方法。 ManiGAN [49] 引入了一个两阶段的架构，其中包含 ACM（注意力裁剪模块）和 DCM（可变形裁剪模块），以促进基于文本的图像编辑的独立网络训练。轻量级 GAN [40] 通过应用词级判别器进一步提高了效率。 ManiTrans [50] 采用预训练的自回归Transformer，利用CLIP模型 [22] 进行语义损失计算。最近，Zeng 等人 [51] 开发了一个使用语言引导的多轮图像编辑框架。

大语言模型的出现进一步推动了文本到图像生成的进步。 DALL-E [52] 使用VQ-VAE [53] 将图像分解成离散的符元，将图像合成构建为一个翻译任务。 LDM [54] 将扩散模型应用于潜在图像向量，允许以高质量的结果进行高效训练。 GLIDE [55] 是一种基于扩散的文本到图像生成模型，它使用引导扩散来增强文本条件下的合成。 GALIP [21] 在对抗学习中整合了CLIP模型，用于文本到图像的合成。 Zhang 等人提出的ControlNet [56] ，建立在预训练的Stable Diffusion [54] 基础之上，加入了详细的控制来引导图像生成。

预训练扩散模型的最新进展 [55, 54, 57] 显著提高了图像生成能力。虽然一些研究 [58, 59, 60, 61, 62] 强调了这些模型的生成潜力，但它们在超分辨率中的应用仍然具有挑战性。超分辨率所需的高保真度要求速度和效率——而扩散模型由于其多步去噪过程通常缺乏这些特性，这导致生成时间较慢并使潜在空间操作复杂化。

与使用扩散模型相比，这项工作出于几个关键原因采用了基于GAN的模型。 GAN能够一次性生成高分辨率图像，与扩散模型的迭代性质相比，这大大提高了效率。此外，它们提供了一个平滑的潜在空间，可以对生成的特征进行直观的控制，使其特别适合超分辨率任务。此外，GAN所需的训练数据和计算资源较少，提高了研究人员的可及性。通过利用GAN，我们旨在实现高质量的图像生成，同时确保超分辨率的实际适用性。

III 方法

本节首先概述我们提出的CLIP-SR模型，然后详细描述我们多模态协同图像超分辨率（SR）网络中的各个组件。最后，我们介绍了该方法中使用的总损失函数。

III-A 概述

传统的小尺度因子SR方法使用深度SR网络从LR图像生成HR图像。然而，大尺度因子下采样往往会导致LR图像出现明显的模糊，使得SR网络难以仅从像素空间信息中重建语义一致且精确的细节。为了解决这些挑战，我们引入了文本语义作为补充输入，使我们的网络能够利用像素和文本空间的信息来生成更准确的细节。显然，我们将输入低分辨率图像表示为 L L ⁢ R ，补充文本描述表示为 T ，高分辨率真值图像表示为 I G ⁢ T ，对应于输入低分辨率图像 L L ⁢ R 。 CLIP-SR ℋ 的目标是融合 L L ⁢ R 和 T 以生成语义一致且视觉逼真的超分辨率图像，表示为 I S ⁢ R 。

特别地，我们在多模态迭代细化模型中引入了一个文本-图像融合块（TIFBlock），该模型集成了CLIP [22] 和TIFBlock以实现有效的放大倍数SR。为了有效地结合来自不同模态的信息，即文本和图像，我们设计了一种鲁棒的融合策略，该策略保留了重要的文本细节，同时避免了在更简单的方法 [63, 48, 41] 中观察到的信息丢失，这些方法直接将文本向量与图像特征合并。我们的TIFBlock采用仿射变换对齐策略来提高文本-图像融合精度并保留关键语义细节。鉴于文本和图像特征之间的内在差异，精确的对齐对于实现语义一致性至关重要。为了进一步减少跨模态不一致性，在对齐之前采用提示预测器来处理文本向量。此外，CLIP模型 [22] 作为补充对齐工具集成到我们的框架中，确保SR的上下文精确和语义一致的文本-图像融合。

图3：我们提出的用于大倍数图像超分辨率的多模态协同语义增强模型的架构（见子图 (a)）。给定一个低分辨率图像输入 I L ⁢ R 和文本指导 T ，特征 F I 和 F T 分别使用图像编码器 E I 和文本编码器 E T 进行提取。文本特征向量 F T 通过提示预测模块 P 进一步细化，然后由CLIP-ViT模型处理以增强文本指导。随后，使用文本图像融合块 (TIFBlock) 集成细化的文本和图像特征，该块对齐并组合两种模态（见子图 (b)）。在TIFBlock中，在其文本融合模块中应用仿射变换。此变换采用两个连续的多层感知器 (MLP) 来生成逐通道缩放参数 ( γ n ^ = M ⁢ L ⁢ P 1 ⁢ ( S ⁢ o ⁢ f ⁢ t ⁢ m ⁢ a ⁢ x ⁢ ( F T ) ) ) 和偏移参数 ( β n ^ = M ⁢ L ⁢ P 2 ⁢ ( S ⁢ o ⁢ f ⁢ t ⁢ m ⁢ a ⁢ x ⁢ ( F T ) ) )。这些参数自适应地调节视觉表示 F ^ I n 的逐通道特征。最后，融合的多模态特征通过连续的Conv-TIFBlock结构（称为迭代细化模块 R ）进行迭代细化和语义增强。这个迭代过程确保逐步改进超分辨率输出，并增强细节和语义一致性。

为了进一步确保与生成的高分辨率 (SR) 图像中的低分辨率 (LR) 内容保持一致，我们设计了两种基于我们的融合策略的附加机制。具体来说，我们结合残差连接来保留重要的低分辨率细节，尤其是在可能出现语义冲突的情况下。此外，在多模态迭代细化模块的每一层都集成了文本语义，逐步指导超分辨率过程并进行细粒度调整。这些改进的语义融合策略确保生成的超分辨率图像在结构和语义上都与低分辨率输入保持一致。图 3 概述了整个网络架构和设计的TIFBlock的细节。

III-B 网络架构

在本节中，我们将介绍我们提出的多模态大倍数图像超分辨率模型的关键组件。该模型主要包含五个组件：文本和图像编码器、提示预测器、文本图像融合模块（TIFBlock）、迭代细化模块和基于CLIP的鉴别器。

本质上，文本和图像编码器提取文本向量和图像特征，为后续步骤提供基础表示。 TIFBlock 对齐并融合这些特征，实现文本和视觉信息的协调集成。 CLIP-ViT 和提示预测器有效地增强了整个生成过程中的文本指导。迭代细化模块通过多次迭代逐步恢复图像细节并增强局部语义，确保不同模态之间的对齐。最后，基于CLIP的鉴别器全面评估生成图像的保真度、语义质量和一致性。通过利用这五个组件的协同作用，我们的方法即使从严重退化的低分辨率输入（例如，8 × 或16 × 下采样）也能生成语义一致且逼真重建的高分辨率图像。

III-B 1 文本和图像编码器

我们使用两个不同的编码器来处理输入模态。文本编码器，记为 E T ，遵循CLIP [22] 的架构，并将文本输入 T 编码为特征向量 F T ，其中 F T = E T ⁢ ( T ) ，以有效捕获语义信息。对于输入的低分辨率图像 I L ⁢ R ，图像编码器 E I 采用一系列卷积层，将输入逐步转换为 8 × 8 特征图 F I ，其中 F I = E I ⁢ ( I L ⁢ R ) 。这些编码器允许我们的模型为文本和图像输入生成兼容的特征表示，为它们在网络中的后续融合做好准备。

III-B 2 提示预测器

在利用预训练的CLIP-ViT将图像特征与相应的文本向量对齐之前，我们引入了一个受VPT [20] 和GALIP [21] 启发的提示预测器。提示预测器，记作 P ，包含一个全连接 (FC) 层和一个自注意力层，充当文本驱动的注意力机制。它预测文本条件提示 F T ′ = P ⁢ ( F T ) ，这些提示被附加到 CLIP-ViT 中的视觉块嵌入中。此设计使生成的图像能够更有效地捕捉输入文本的语义内容，同时保持与 CLIP-ViT 模型编码的视觉信息的一致性。

提示预测器利用文本编码器的输出选择性地关注显着的文本元素，然后将其与视觉特征融合。此集成使生成器能够更准确地解释文本并将其转换为详细、连贯的视觉表示，从而提高文本描述和生成图像在内容和质量上的匹配度。

III-B 3 文本图像融合块 (TIFBlock)

为了进一步增强文本信息对图像的影响，我们引入了一个文本图像融合块 (TIFBlock)，它将文本语义作为补充特征源进行整合。如图 3 (b) 所示，TIFBlock在其文本融合模块中包含一个仿射变换。遵循 DF-GAN [44] 的设计原则，我们在每个仿射层之后引入一个 ReLU 层，通过引入非线性关系来增加文本融合图像的多样性。此外，为了提高模型对文本描述的理解能力，我们在将文本特征传递到仿射层之前，应用 Softmax 函数对其进行重新加权。这种重新加权策略允许更平滑、更可靠地整合文本和图像领域。

TIFBlock 的过程首先将 LR 图像 I L ⁢ R 馈送到图像编码器网络 E I ，提取图像特征 F I 。同时，文本通过预训练的 CLIP 编码器 E T 进行编码，生成文本向量 F T 。然后使用 Softmax 函数对文本特征进行重新加权，然后再将其传递到仿射变换层。在这一层中，重新加权的文本向量通过两个连续的多层感知器 (MLP) 进行处理，生成逐通道缩放参数 γ ^ = M ⁢ L ⁢ P 1 ⁢ ( S ⁢ o ⁢ f ⁢ t ⁢ m ⁢ a ⁢ x ⁢ ( F T ) ) 和逐通道偏移参数 β ^ = M ⁢ L ⁢ P 2 ⁢ ( S ⁢ o ⁢ f ⁢ t ⁢ m ⁢ a ⁢ x ⁢ ( F T ) ) 。仿射变换随后自适应地调整视觉特征 F ^ I n 的通道特征。仿射变换定义如下：

其中 A ⁢ F ⁢ F 表示仿射变换， F ^ I n 表示视觉特征图 F ^ I 的第 n 个通道， F T 表示文本向量，而 γ n 和 β n 是可学习的缩放和偏移参数。此机制使模型能够动态调整对文本上下文的特征响应，从而实现更准确和更有意义的比对。

TIFBlock通过仿射变换融合模态，执行文本和图像特征的初始比对和整合，确保语义一致性和准确的特征组合。然后，这些融合的多模态特征被传递到迭代细化模块，该模块通过多次迭代逐步细化局部细节并增强语义一致性，从而逐步提高图像质量。迭代过程基于TIFBlock提供的融合特征，使模型能够生成具有更高分辨率和逼真纹理的输出。 TIFBlock共同建立了模态的基础比对，而迭代细化模块则逐步优化和恢复图像细节。

III-B 4 迭代细化模块

为了确保生成的图像与给定文本紧密匹配，我们使用残差结构迭代细化从CLIP-ViT导出的图像特征，使用文本向量引导融合文本图像特征。最初，提示预测器利用文本编码器的输出弥合文本和图像模态之间的语义差距。随后，低分辨率图像特征 F I 与文本向量 F T 在TIFBlock中结合，以进一步比对图像和文本特征。然后，采用CLIP-ViT来协调图像和文本之间任何不一致之处，确保最终图像特征与两种模态中存在的知识相匹配。最后，提示预测器、TIFBlock和CLIP-ViT的输出通过残差结构迭代合并，以生成与提供的文本语义一致的高分辨率图像。

在整个流程中，我们在三个关键阶段利用文本信息。首先，我们采用一个简单的卷积神经网络从低分辨率图像中提取特征，并使用TIFBlock将其与文本信息整合。这种整合确保组合特征既包含详细的视觉线索，也包含语义信息，从而能够精确地引导CLIP-ViT网络中的信息流。接下来，文本注意力机制处理文本特征以解决文本和图像模态之间的固有差异，从而促进有效的跨模态对齐。此外，文本信息作为提示预测器的输入，馈入CLIP-ViT模型，进一步增强了视觉和语义特征的融合。最后，在从CLIP-ViT获得预备图像特征后，迭代细化模块通过迭代地将其与文本语义融合并通过额外的上采样模块 G 放大图像，逐步恢复详细的图像信息。

III-B 5 基于CLIP的判别器

我们利用GALIP [21] 提出的基于CLIP的判别器，它从复杂的图像中提取更多信息丰富的视觉特征，使判别器能够更有效地识别不真实的图像区域。这反过来又促使生成器生成更真实的图像。判别器的结构通过将额外的视觉信息整合到CLIP框架中，展现了对复杂场景的深刻理解，使其特别适合作为判别器的角色。特别是，基于CLIP的判别器旨在结合CLIP [22] 的语言图像预训练，并进行了增强以提高其评估生成图像质量的有效性。

在训练期间，判别器的目标是区分生成的图像和真实图像。 CLIP模型在对齐不同模态的文本和图像方面具有优越的性能，这使得基于CLIP的判别器能够对图像内容获得全面而细致的理解，从而有助于在我们的方法中生成更高质量和语义一致的输出。

III-C 优化目标

重构损失。为确保重建图像内容的一致性，我们采用逐像素 ℒ 1 范数，定义如下：

其中 ℋ ⁢ ( I L ⁢ R , T ) 表示本工作中提出的完整超分辨率网络 ℋ 生成的输出， F T 表示文本描述， I G ⁢ T 表示对应于输入低分辨率图像 I L ⁢ R 的高分辨率真值。

感知损失。此外，我们使用感知损失 [64] 来鼓励生成的超分辨率结果与真实高分辨率图像之间的视觉一致性。感知损失定义如下：

其中 ϕ i ( . ) 表示来自预训练感知网络 ϕ 第 i 层的特征图。我们采用预训练的VGG-19网络 [65] 作为我们的 ϕ ，并选择五个激活层来计算感知损失。超参数 σ i 调节第 i 层对公式 3 中总损失项的贡献。

文本约束对抗损失。为了约束文本的语义信息，我们使用了文本约束对抗损失 [21] 。这里， I L ⁢ R 表示给定的低分辨率图像， F T 是从对应的文本输入中提取的文本向量。低分辨率图像 I L ⁢ R 和文本向量 F T 都被输入到超分辨率网络 ℋ 中，得到输出 ℋ ⁢ ( I L ⁢ R , T ) 。令 C 和 𝒱 分别表示基于CLIP的判别器中冻结的CLIP-ViT模型和图像特征提取器模型。 S i m ( . , . ) 表示生成的HR图像 ℋ ⁢ ( I L ⁢ R , F T ) 和文本向量 F T 之间的余弦相似度。

文本约束对抗损失定义如下：

其中 α 是一个控制文本-图像相似度权重的超参数，而 ℙ g 表示合成数据分布。

总损失。考虑所有上述损失函数，总目标函数公式如下：

其中超参数 λ a ⁢ d ⁢ v 控制对抗损失 ℒ a ⁢ d ⁢ v 的权重。

IV 实验

IV-A 实现细节

数据集。我们在COCO [66] 、Birds200 (CUB) [67] 和CelebA [68] 数据集上评估我们的方法，每个数据集都包含成对的图像和文本描述，如表 I 所示。为了训练，所有图像都被裁剪到 256 × 256 分辨率，低分辨率图像通过对高分辨率图像进行双三次下采样生成。使用的CLIP-ViT主干网络是ViT-B/32模型。

表 I：数据集统计。 Text / Image表示对应于每张图像的单词数量。

Dataset	CUB		CelebA		COCO
Dataset	train	test	train	test	train	test
Images	8,855	2,933	24,000	6,000	82,783	40,470
Text / Image	10	10	10	10	5	5

设置。我们使用Adam优化器在NVIDIA RTX A5000上训练所提出的方法，参数 β 1 = 0.0 和 β 2 = 0.9 ，训练迭代次数为220轮。超参数 λ a ⁢ d ⁢ v 设置为0.01。同时，遵循GALIP [21] 中的设置，我们将 α 设置为4。由于TGSR [17] 的官方代码不可用，我们使用TGSR ^# 来表示基于TGSR论文中提供的视觉示例和定量指标复现的结果，以便与其他方法进行比较。

IV-B 定量评估

为了定量评估不同方法生成的超分辨率图像的质量，我们使用了两个主要的评价指标：NIQE（自然图像质量评估器） [69] 和PI（感知指数） [70] 。 NIQE评估超分辨率图像的整体质量，分数越低表示图像越自然逼真。另一方面，PI衡量图像的感知质量，PI值越低，视觉质量越好。在我们的实验中（表 III 除外），我们特别选择了NIQE和PI，而不是像PSNR和SSIM这样的传统指标，因为后者更关注图像失真，而忽略了客观质量和感知体验。在超分辨率的背景下，NIQE和PI更符合评估图像的真实性和自然性，使其更适合这项任务。

表 II 展示了我们在CUB和COCO数据集上的实验结果。对于较小的CUB数据集，我们将NIQE和PI分数与几种最先进的超分辨率方法进行了比较，包括EDSR [1] 、ESRGAN [2] 、SPSR [12] 和TGSR ^# [17] 。我们的方法获得了第二好的NIQE分数，紧随ESRGAN之后，同时在PI方面优于Bicubic插值和EDSR。在更大的COCO数据集上，我们的方法在NIQE和PI方面都显著优于所有比较方法，展现了其优越的泛化能力。其他方法在COCO数据集上的性能下降进一步突显了我们方法的鲁棒性和多功能性。

表二：我们方法与对比方法在 CUB 和 COCO 数据集上的定量比较。符号 ↓ 表示度量值越低越好。

Dataset	Metrics	Bicubic	EDSR [1]	ESRGAN [2]	SPSR [12]	TGSR ^# [17]	Ours
CUB	NIQE ↓	12.374	10.684	5.465	5.885	6.623	5.825
CUB	PI ↓	9.747	8.168	2.644	3.345	2.560	4.167
COCO	NIQE ↓	11.110	9.683	6.816	6.378	6.484	4.706
COCO	PI ↓	9.373	8.515	7.135	6.060	4.922	3.610

表三： CelebA 数据集上的定量比较。

Metrics	Bicubic	SuperFAN [9]	DICGAN [18]	TGSR ^# [17]	Ours
PSNR ↑	25.81	28.908	33.61	23.48	28.974
SSIM ↑	0.844	0.815	0.895	0.766	0.808
NIQE ↓	14.514	6.459	5.755	8.846	5.172
PI ↓	9.676	5.345	5.5986	7.165	4.476

表 III 提供了 CelebA 数据集上 PSNR、SSIM、NIQE 和 PI 指标的定量比较。我们将我们的方法与几种基线方法进行了评估，包括双三次插值、SuperFAN [9] 、DICGAN [18] 和 TGSR ^# [17] 。结果表明，该方法在所有指标上都取得了具有竞争力的性能。具体来说，与仅依赖单模态输入的双三次插值、SuperFAN 和 DICGAN 相比，我们的方法结合了补充的文本信息以实现跨模态语义对齐，从而实现了优越的超分辨率性能。此外，与同样利用文本指导的 TGSR ^# 相比，我们的多模态协同语义增强机制生成的图像不仅具有语义一致性，而且视觉效果逼真。总之，我们的方法在三个数据集上始终提供具有竞争力的结果，突显了其在图像超分辨率任务中的有效性。

IV-C 定性评估

为了进一步验证该方法的有效性，我们进行了额外的定性实验。具体来说，我们将原始框架中预训练的 CLIP-ViT 模型替换为 BLIP-2 [71] ，将 CLIP 的文本编码器替换为 BERT [72] 。然后，我们在 CUB 数据集上重新训练网络，将重新训练后获得的视觉结果表示为 O ⁢ u ⁢ r ⁢ s ∗ 。如图 4 所示，实验结果表明，即使进行此修改，我们的方法也能获得令人满意的视觉效果。这些发现进一步证实，所提出的多模态协作框架能够持续生成具有清晰细节和强大语义一致性的高质量超分辨率图像。

图4：与TGSR [17] 方法的视觉比较。值得注意的是， # 表示原始论文报告的结果。 ∗ 表示我们使用语言图像预训练模型BLIP-2和文本编码器BERT的方法的结果。所提出的方法与各种预训练的多模态模型兼容。 (放大以获得最佳视图)

同时，我们进行了一个额外的超分辨率(SR)实验，将低分辨率图像从 64 × 64 上采样到 256 × 256 。如图 5