一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜! |
卷积神经网络 (CNN) 已经推动了图像超分辨率 (SR) 的发展,但是大多数基于 CNN 的方法仅仅依赖于基于像素的变换,这常常会导致伪影和模糊,尤其是在严重下采样(
例如
,8
图像超分辨率、CLIP、多模态融合、语言引导
卷积神经网络 (CNN) 的出现极大地推动了图像超分辨率 (SR) 领域的发展 [1, 2, 3, 4, 5, 6] 。 早期的基于 CNN 的 SR 方法仅依靠低分辨率 (LR) 图像来重建高分辨率 (HR) 图像,常常难以提高重建质量。 为了克服这些限制,后续的研究 [7, 8, 9, 10, 11, 12, 13, 14, 15] 引入了先验信息来指导 SR 过程,旨在弥补 LR 图像中缺失的细节。 基于先验的方法虽然已经证明有所改进,但它们往往局限于特定类型的图像,例如具有明确结构或属性的图像( 例如 ,人脸图像)。 此外,像SFTGAN [16] 这样的方法,利用语义分割图来辅助超分辨率重建,往往会带来额外的计算成本,并且高度依赖于分割过程的准确性。
为了解决这些局限性,使用文本描述作为一种语义指导的形式已成为一种更灵活和全面的替代方案。 文本提供了更丰富和更详细的语义信息,可以指导更广泛范围的图像的超分辨率过程。 TGSR [17] 是最早探索这种方法的研究,使用文本增强超分辨率图像细节生成。 然而,这种方法仍然存在挑战,尤其是在实现有效的文本图像特征匹配和语义对齐方面,导致输入LR图像和生成的SR结果之间存在不一致。 在本文中,我们提出了一种新方法,该方法确保语义一致性,同时实现大规模超分辨率。 我们的方法利用文本描述来指导超分辨率过程,确保重建的HR图像在语义上连贯且视觉上逼真。 如图 1 所示,我们的方法解决了先前方法的局限性,为高保真超分辨率提供了一种稳健的解决方案。
为了解决基于先验的方法的局限性和无效的文本图像特征匹配带来的挑战,尤其是在处理现实场景中大规模分辨率退化和高语义模糊的情况下,我们引入了一种新方法:用于超分辨率 (SR) 的多模态协作语义增强。 我们并没有将相关文本仅仅视为先验指导,而是将文本信息与LR图像结合起来,作为超分辨率任务的两种模态输入。 结合这些模态可以增强局部语义并实现高性能的大规模超分辨率。 具体来说,我们引入了一个提示预测器,用于从文本中提取重要的语义元素。 受VPT [20] 和GALIP [21] 的启发,提示预测器包含一个全连接层和一个自注意力机制,作为文本驱动的注意力模块。 与直接将原始文本向量输入预训练的CLIP-ViT不同,提示预测器生成的细化文本向量使CLIP-ViT能够实现文本和图像之间语义特征的增强对齐,从而提高跨模态表示的质量。
为了进一步优化文本图像交互,我们引入了TIFBlock,这是一种新颖的对齐融合模块,专门用于增强跨模态集成。 利用CLIP [22] 等预训练模型进行初始特征提取,TIFBlock有效地合成和细化这些表示,从而显着提高文本到图像匹配性能。 在TIFBlock的基础上,我们开发了一个迭代细化模块,这是一个专门用于迭代细节恢复和语义增强的结构。 该模块逐步细化局部细节,解决模糊区域,同时保持迭代间的语义一致性。 迭代细化模块的核心组成部分是包含一个针对我们框架定制的残差连接,这有助于平滑的特征传播,同时保持语义完整性。 定制的残差连接无缝地集成到此模块中,以进一步优化像素转换和特征传播,确保强大的多模态融合。 总之,这些组件与我们的设计目标相一致,实现了模态之间无缝且有效的协作。
通过以语言信息的方式有效地结合与给定LR图像相关的文本描述,所提出的方法生成了高度详细的超分辨率结果。 如图
2
所示,我们展示了将我们的方法应用于严重缩小的面部图像的典型示例,该图像具有
本文的主要贡献如下:
•
我们提出了一种用于大规模图像超分辨率的新型多模态语义一致性方法,该方法从严重退化的低分辨率输入中生成语义一致且逼真的高分辨率图像。
•
我们设计了一种新颖的文本图像融合块(TIFBlock),并将其与预训练的跨模态模型集成,以创建一个迭代协同融合结构,使我们的框架在增强局部语义的同时逐步恢复图像细节。
•
我们研究了不同的文本语义对图像超分辨率的影响。 综合比较实验和消融研究验证了我们超分辨率方法的有效性,同时保持了语义一致性。
单图像超分辨率 (SR) 已成为端到端深度学习领域中的一个动态研究方向 [23] 。 各种模型和机制的发展显著改进了超分辨率方法,尤其是在像素重建和细节逼近方面。 早期的超分辨率方法 [4, 24, 25, 26, 27, 28] 通常假设低分辨率 (LR) 图像像素是通过对高分辨率 (HR) 图像进行双三次下采样获得的。 这些方法采用各种深度映射网络直接从低分辨率输入重建超分辨率图像像素。 虽然这些方法在具有小规模退化问题的合成数据上可以取得令人满意的结果,但在现实世界的大规模退化场景中,由于低分辨率语义的全部或部分丢失,它们的有效性会显著下降。
为了提高在现实世界超分辨率场景中的性能,人们提出了许多基于先验的方法,这些方法利用显式或隐式先验来丰富细节生成。 一种具有代表性的显式方法是基于参考的超分辨率 [29, 30, 31, 32] ,它利用一个或多个与输入低分辨率图像具有相似纹理的高分辨率参考图像来指导高分辨率输出的生成。 然而,将参考的特征与低分辨率输入匹配可能具有挑战性,并且这些显式先验可能不可用。
最近的方法,包括FSRNet [7] 、DeepSEE [11] 、SFTGAN [8] 、TGSR [17] ,已经转向利用隐式先验,通过将先验信息直接整合到超分辨率过程中来取得更好的结果。 例如,FSRNet [7] 利用几何先验来改善人脸图像超分辨率效果,而Zhang 等人 [33] 则利用多视角一致性。 DeepSEE [11] 利用语义图来探索极端图像超分辨率。SFTGAN [8] 引入图像分割掩码作为人脸图像超分辨率的先验特征,而TGSR [17] 则采用文本语义作为先验条件来引导图像超分辨率。 尽管有效,但这些隐式先验通常针对特定情况进行定制,例如受限类别 [34, 35] 或人脸图像 [7, 8, 36, 37] ,这限制了它们在更复杂、现实世界的超分辨率任务中的适用性。
多模态融合在各种视觉任务中变得越来越普遍,例如图像生成、风格迁移和图像编辑。 例如,关键点通常用于运动生成 [38] 和自动化妆应用 [39] 。 在基于文本的图像合成中,GAN-INT-CLS [40] 利用文本描述使用条件生成对抗网络 (cGANs) 生成图像。 为了提高图像质量,Stack-GAN [41] 、AttnGAN [42] 和 DM-GAN [43] 利用多个生成器和判别器。 DF-GAN [44] 通过更简化和有效的方法简化了文本到图像的合成。 LAFITE [45] 引入了一种基于 CLIP 模型 [22] 的对比损失,为生成精确的图像提供了更准确的指导。 在艺术风格迁移中,CLIPstyler [46] 能够从文本描述到源图像进行领域无关的纹理迁移,而 CLVA [47] 则采用基于块的风格判别器从风格指令中提取视觉语义,实现详细和局部化的艺术风格迁移。 对于文本引导的图像编辑,SISGAN [48] 开创了使用编码器-解码器架构进行基于文本的语义编辑的方法。 ManiGAN [49] 引入了一个两阶段的架构,其中包含 ACM(注意力裁剪模块)和 DCM(可变形裁剪模块),以促进基于文本的图像编辑的独立网络训练。 轻量级 GAN [40] 通过应用词级判别器进一步提高了效率。 ManiTrans [50] 采用预训练的自回归Transformer,利用CLIP模型 [22] 进行语义损失计算。 最近,Zeng 等人 [51] 开发了一个使用语言引导的多轮图像编辑框架。
大语言模型的出现进一步推动了文本到图像生成的进步。 DALL-E [52] 使用VQ-VAE [53] 将图像分解成离散的符元,将图像合成构建为一个翻译任务。 LDM [54] 将扩散模型应用于潜在图像向量,允许以高质量的结果进行高效训练。 GLIDE [55] 是一种基于扩散的文本到图像生成模型,它使用引导扩散来增强文本条件下的合成。 GALIP [21] 在对抗学习中整合了CLIP模型,用于文本到图像的合成。 Zhang 等人 提出的ControlNet [56] ,建立在预训练的Stable Diffusion [54] 基础之上,加入了详细的控制来引导图像生成。
预训练扩散模型的最新进展 [55, 54, 57] 显著提高了图像生成能力。 虽然一些研究 [58, 59, 60, 61, 62] 强调了这些模型的生成潜力,但它们在超分辨率中的应用仍然具有挑战性。 超分辨率所需的高保真度要求速度和效率——而扩散模型由于其多步去噪过程通常缺乏这些特性,这导致生成时间较慢并使潜在空间操作复杂化。
与使用扩散模型相比,这项工作出于几个关键原因采用了基于GAN的模型。 GAN能够一次性生成高分辨率图像,与扩散模型的迭代性质相比,这大大提高了效率。 此外,它们提供了一个平滑的潜在空间,可以对生成的特征进行直观的控制,使其特别适合超分辨率任务。 此外,GAN所需的训练数据和计算资源较少,提高了研究人员的可及性。 通过利用GAN,我们旨在实现高质量的图像生成,同时确保超分辨率的实际适用性。
本节首先概述我们提出的CLIP-SR模型,然后详细描述我们多模态协同图像超分辨率(SR)网络中的各个组件。 最后,我们介绍了该方法中使用的总损失函数。
传统的小尺度因子SR方法使用深度SR网络从LR图像生成HR图像。 然而,大尺度因子下采样往往会导致LR图像出现明显的模糊,使得SR网络难以仅从像素空间信息中重建语义一致且精确的细节。 为了解决这些挑战,我们引入了文本语义作为补充输入,使我们的网络能够利用像素和文本空间的信息来生成更准确的细节。 显然,我们将输入低分辨率图像表示为
特别地,我们在多模态迭代细化模型中引入了一个文本-图像融合块(TIFBlock),该模型集成了CLIP [22] 和TIFBlock以实现有效的放大倍数SR。为了有效地结合来自不同模态的信息, 即 文本和图像,我们设计了一种鲁棒的融合策略,该策略保留了重要的文本细节,同时避免了在更简单的方法 [63, 48, 41] 中观察到的信息丢失,这些方法直接将文本向量与图像特征合并。 我们的TIFBlock采用仿射变换对齐策略来提高文本-图像融合精度并保留关键语义细节。 鉴于文本和图像特征之间的内在差异,精确的对齐对于实现语义一致性至关重要。 为了进一步减少跨模态不一致性,在对齐之前采用提示预测器来处理文本向量。 此外,CLIP模型 [22] 作为补充对齐工具集成到我们的框架中,确保SR的上下文精确和语义一致的文本-图像融合。
为了进一步确保与生成的高分辨率 (SR) 图像中的低分辨率 (LR) 内容保持一致,我们设计了两种基于我们的融合策略的附加机制。 具体来说,我们结合残差连接来保留重要的低分辨率细节,尤其是在可能出现语义冲突的情况下。 此外,在多模态迭代细化模块的每一层都集成了文本语义,逐步指导超分辨率过程并进行细粒度调整。 这些改进的语义融合策略确保生成的超分辨率图像在结构和语义上都与低分辨率输入保持一致。 图 3 概述了整个网络架构和设计的TIFBlock的细节。
在本节中,我们将介绍我们提出的多模态大倍数图像超分辨率模型的关键组件。 该模型主要包含五个组件:文本和图像编码器、提示预测器、文本图像融合模块(TIFBlock)、迭代细化模块和基于CLIP的鉴别器。
本质上,文本和图像编码器提取文本向量和图像特征,为后续步骤提供基础表示。 TIFBlock 对齐并融合这些特征,实现文本和视觉信息的协调集成。 CLIP-ViT 和提示预测器有效地增强了整个生成过程中的文本指导。 迭代细化模块通过多次迭代逐步恢复图像细节并增强局部语义,确保不同模态之间的对齐。 最后,基于CLIP的鉴别器全面评估生成图像的保真度、语义质量和一致性。 通过利用这五个组件的协同作用,我们的方法即使从严重退化的低分辨率输入(
例如
,8
我们使用两个不同的编码器来处理输入模态。 文本编码器,记为
在利用预训练的CLIP-ViT将图像特征与相应的文本向量对齐之前,我们引入了一个受VPT
[20]
和GALIP
[21]
启发的提示预测器。 提示预测器,记作
提示预测器利用文本编码器的输出选择性地关注显着的文本元素,然后将其与视觉特征融合。 此集成使生成器能够更准确地解释文本并将其转换为详细、连贯的视觉表示,从而提高文本描述和生成图像在内容和质量上的匹配度。
为了进一步增强文本信息对图像的影响,我们引入了一个文本图像融合块 (TIFBlock),它将文本语义作为补充特征源进行整合。 如图 3 (b) 所示,TIFBlock在其文本融合模块中包含一个仿射变换。 遵循 DF-GAN [44] 的设计原则,我们在每个仿射层之后引入一个 ReLU 层,通过引入非线性关系来增加文本融合图像的多样性。 此外,为了提高模型对文本描述的理解能力,我们在将文本特征传递到仿射层之前,应用 Softmax 函数对其进行重新加权。 这种重新加权策略允许更平滑、更可靠地整合文本和图像领域。
TIFBlock 的过程首先将 LR 图像
其中
TIFBlock通过仿射变换融合模态,执行文本和图像特征的初始比对和整合,确保语义一致性和准确的特征组合。 然后,这些融合的多模态特征被传递到迭代细化模块,该模块通过多次迭代逐步细化局部细节并增强语义一致性,从而逐步提高图像质量。 迭代过程基于TIFBlock提供的融合特征,使模型能够生成具有更高分辨率和逼真纹理的输出。 TIFBlock共同建立了模态的基础比对,而迭代细化模块则逐步优化和恢复图像细节。
为了确保生成的图像与给定文本紧密匹配,我们使用残差结构迭代细化从CLIP-ViT导出的图像特征,使用文本向量引导融合文本图像特征。 最初,提示预测器利用文本编码器的输出弥合文本和图像模态之间的语义差距。 随后,低分辨率图像特征
在整个流程中,我们在三个关键阶段利用文本信息。 首先,我们采用一个简单的卷积神经网络从低分辨率图像中提取特征,并使用TIFBlock将其与文本信息整合。 这种整合确保组合特征既包含详细的视觉线索,也包含语义信息,从而能够精确地引导CLIP-ViT网络中的信息流。 接下来,文本注意力机制处理文本特征以解决文本和图像模态之间的固有差异,从而促进有效的跨模态对齐。 此外,文本信息作为提示预测器的输入,馈入CLIP-ViT模型,进一步增强了视觉和语义特征的融合。 最后,在从CLIP-ViT获得预备图像特征后,迭代细化模块通过迭代地将其与文本语义融合并通过额外的上采样模块
我们利用GALIP [21] 提出的基于CLIP的判别器,它从复杂的图像中提取更多信息丰富的视觉特征,使判别器能够更有效地识别不真实的图像区域。 这反过来又促使生成器生成更真实的图像。 判别器的结构通过将额外的视觉信息整合到CLIP框架中,展现了对复杂场景的深刻理解,使其特别适合作为判别器的角色。 特别是,基于CLIP的判别器旨在结合CLIP [22] 的语言图像预训练,并进行了增强以提高其评估生成图像质量的有效性。
在训练期间,判别器的目标是区分生成的图像和真实图像。 CLIP模型在对齐不同模态的文本和图像方面具有优越的性能,这使得基于CLIP的判别器能够对图像内容获得全面而细致的理解,从而有助于在我们的方法中生成更高质量和语义一致的输出。
重构损失。
为确保重建图像内容的一致性,我们采用逐像素
其中
感知损失。 此外,我们使用感知损失 [64] 来鼓励生成的超分辨率结果与真实高分辨率图像之间的视觉一致性。 感知损失定义如下:
其中
文本约束对抗损失。
为了约束文本的语义信息,我们使用了文本约束对抗损失
[21]
。 这里,
文本约束对抗损失定义如下:
其中
总损失。 考虑所有上述损失函数,总目标函数公式如下:
其中超参数
数据集。
我们在COCO
[66]
、Birds200 (CUB)
[67]
和CelebA
[68]
数据集上评估我们的方法,每个数据集都包含成对的图像和文本描述,如表
I
所示。 为了训练,所有图像都被裁剪到
Dataset | CUB | CelebA | COCO | |||
---|---|---|---|---|---|---|
train | test | train | test | train | test | |
Images | 8,855 | 2,933 | 24,000 | 6,000 | 82,783 | 40,470 |
Text
|
10 | 10 | 10 | 10 | 5 | 5 |
设置。
我们使用Adam优化器在NVIDIA RTX A5000上训练所提出的方法,参数
为了定量评估不同方法生成的超分辨率图像的质量,我们使用了两个主要的评价指标:NIQE(自然图像质量评估器) [69] 和PI(感知指数) [70] 。 NIQE评估超分辨率图像的整体质量,分数越低表示图像越自然逼真。 另一方面,PI衡量图像的感知质量,PI值越低,视觉质量越好。 在我们的实验中(表 III 除外),我们特别选择了NIQE和PI,而不是像PSNR和SSIM这样的传统指标,因为后者更关注图像失真,而忽略了客观质量和感知体验。 在超分辨率的背景下,NIQE和PI更符合评估图像的真实性和自然性,使其更适合这项任务。
表 II 展示了我们在CUB和COCO数据集上的实验结果。 对于较小的CUB数据集,我们将NIQE和PI分数与几种最先进的超分辨率方法进行了比较,包括EDSR [1] 、ESRGAN [2] 、SPSR [12] 和TGSR # [17] 。 我们的方法获得了第二好的NIQE分数,紧随ESRGAN之后,同时在PI方面优于Bicubic插值和EDSR。 在更大的COCO数据集上,我们的方法在NIQE和PI方面都显著优于所有比较方法,展现了其优越的泛化能力。 其他方法在COCO数据集上的性能下降进一步突显了我们方法的鲁棒性和多功能性。
Dataset | Metrics | Bicubic | EDSR [1] | ESRGAN [2] | SPSR [12] | TGSR # [17] | Ours |
---|---|---|---|---|---|---|---|
CUB |
NIQE
|
12.374 | 10.684 | 5.465 | 5.885 | 6.623 | 5.825 |
PI
|
9.747 | 8.168 | 2.644 | 3.345 | 2.560 | 4.167 | |
COCO |
NIQE
|
11.110 | 9.683 | 6.816 | 6.378 | 6.484 | 4.706 |
PI
|
9.373 | 8.515 | 7.135 | 6.060 | 4.922 | 3.610 |
Metrics | Bicubic | SuperFAN [9] | DICGAN [18] | TGSR # [17] | Ours |
---|---|---|---|---|---|
PSNR
|
25.81 | 28.908 | 33.61 | 23.48 | 28.974 |
SSIM
|
0.844 | 0.815 | 0.895 | 0.766 | 0.808 |
NIQE
|
14.514 | 6.459 | 5.755 | 8.846 | 5.172 |
PI
|
9.676 | 5.345 | 5.5986 | 7.165 | 4.476 |
表 III 提供了 CelebA 数据集上 PSNR、SSIM、NIQE 和 PI 指标的定量比较。 我们将我们的方法与几种基线方法进行了评估,包括双三次插值、SuperFAN [9] 、DICGAN [18] 和 TGSR # [17] 。 结果表明,该方法在所有指标上都取得了具有竞争力的性能。 具体来说,与仅依赖单模态输入的双三次插值、SuperFAN 和 DICGAN 相比,我们的方法结合了补充的文本信息以实现跨模态语义对齐,从而实现了优越的超分辨率性能。 此外,与同样利用文本指导的 TGSR # 相比,我们的多模态协同语义增强机制生成的图像不仅具有语义一致性,而且视觉效果逼真。 总之,我们的方法在三个数据集上始终提供具有竞争力的结果,突显了其在图像超分辨率任务中的有效性。
为了进一步验证该方法的有效性,我们进行了额外的定性实验。 具体来说,我们将原始框架中预训练的 CLIP-ViT 模型替换为 BLIP-2
[71]
,将 CLIP 的文本编码器替换为 BERT
[72]
。 然后,我们在 CUB 数据集上重新训练网络,将重新训练后获得的视觉结果表示为
同时,我们进行了一个额外的超分辨率(SR)实验,将低分辨率图像从
|
狗与爱的世界 · 这只小狗没有牙齿,却让无数人克服了看牙医的恐惧 8 年前 |
|
周冲的影像声色 · 我给某些网络大V当过枪手 7 年前 |
|
总裁营销兵法 · 没有勇气改变现状,就没资格抱怨!不看这些精品微信号太可惜了 7 年前 |
|
赞那度旅行人生 · 如果你还相信浪漫和奇遇,今夏衣柜里一定要有这条裙子 7 年前 |
|
深圳吃货小分队 · 粉红小龙虾店,男生进不去 7 年前 |