摘要—在现实世界中,信息丰富多样,跨越不同的模态,理解和利用各种数据类型以改进检索系统是研究的关键焦点。多模态复合检索整合了文本、图像和音频等多种模态,以提供更准确、个性化和情境相关的结果。为了促进对这一有前景方向的深入理解,本综述深入探讨了多模态复合编辑和检索,涵盖了图像-文本复合编辑、图像-文本复合检索以及其他多模态复合检索。在本综述中,我们系统地组织了应用场景、方法、基准、实验和未来方向。多模态学习是大模型时代的热门话题,并且在PAMI杂志上也见证了一些关于多模态学习和基于变换器的视觉-语言模型的综述。据我们所知,本综述是关于多模态复合检索文献的首次全面回顾,它是多模态融合对现有综述的及时补充。
索引术语—多模态复合检索,多模态融合,图像检索,图像编辑。
我们翻译解读最新论文:多模态合成编辑和检索综述,文末有论文链接。
作者:
张长旺,图源:
旺知识
1 引言
在当今的数字环境中,信息通过各种渠道传递,如文本、图像、音频和雷达等,导致数据量和复杂性的显著增加。随着数据的指数级增长,处理和整合多样化信息的挑战变得至关重要。高效检索个性化和相关信息变得越来越具有挑战性。传统的单一模态检索方法依赖于单一模态,如图像或文本作为查询。然而,这些方法往往难以完全捕捉现实世界信息检索场景的复杂性和微妙性。这一局限性促使了多模态复合图像检索的出现,这是一个超越单一模态界限的有前景的框架。通过利用各种数据类型的互补优势,多模态复合检索系统增强了对用户查询和上下文的理解,从而提高了检索性能和用户满意度。
如图1所示,多模态复合检索涉及合并和分析不同数据形式(例如文本、图像、音频)以检索信息的复杂过程。这种方法在多个现实世界环境中非常有价值,包括多媒体内容、社交媒体平台和电子商务等领域。此外,其应用涉及专业领域,如医学图像检索、文档检索和新闻检索。通过使用多样化的多模态查询,这些技术产生灵活和准确的结果,从而增强用户体验并促进知情决策。因此,多模态复合检索在信息科学、人工智能和跨学科应用中具有重要的潜力和研究价值。大多数现有的多模态复合检索方法主要关注整合图像和文本以实现期望的结果。早期方法采用卷积神经网络(CNN)对图像进行编码,采用长短期记忆(LSTM)网络对文本进行编码。随着强大的变换器的兴起,如视觉变换器(ViT)、Swin变换器和BERT,提出了许多基于变换器的多模态复合检索方法以增强图像检索性能。此外,视觉-语言预训练(VLP)通过弥合文本描述和视觉内容之间的语义差距,改变了与图像理解和检索相关的任务。各种基于VLP的多模态复合图像检索方法显示出了有希望的结果。此外,图像-文本复合编辑方法允许用户通过自然语言指令直接修改图像或生成新内容,实现与用户意图一致的精确检索。
2 预备概念和应用
2.1 预备概念
如图1所示,多模态复合检索旨在通过整合文本、图像和其他数据形式来提高信息检索的灵活性和整体用户体验。这项技术的核心优势在于利用不同数据模态的互补优势来满足多样化的用户需求和认知偏好。图像-文本复合检索。图1(a)描述了图像-文本复合检索过程,它将图像和文本模态作为输入来检索目标图像。具体来说,输入包括一个参考图像和描述性文本,为检索目标图像提供指导。参考图像包含了复杂的抽象信息,有效地捕捉了颜色、纹理和空间关系等细节。相反,语言能够提供详细和明确的描述,允许表达在图像中可能不立即显现的特定属性、关系和上下文。通过结合这些互补的模态,系统能够构建对目标对象更全面的表现。其他多模态复合检索。图1(b)展示了多模态复合检索的更广泛范围,扩展了图像和文本之外,包括了额外的模态,如音频、鼠标轨迹、分割图、关键姿势、颜色图和深度图。这种整合提供了对用户搜索意图更细致的理解,显著提高了检索结果的精确度和相关性。通过利用不同模态提供的全面数据,系统能够准确识别和检索目标信息。
2.2 应用场景
多模态复合检索的应用范围广泛,涵盖了多个行业和领域。多模态复合检索技术的几种潜在应用如下。时尚和电子商务。文本和图像模态的整合在时尚行业显示出巨大的潜力。这种方法适应了各种认知偏好和个人需求,允许用户根据特定特征如颜色、图案和风格搜索物品,如服装。医疗诊断。在医疗保健领域,多模态检索系统可以帮助临床医生通过合并特定的文本描述和患者扫描图像来定位相关的图像或案例研究,从而促进更准确的诊断和知情的治疗规划。智能城市和交通管理。城市管理系统集成了视频监控、捕获的图像和遥感数据,可以通过文本查询快速检索相关图片或视频(例如,穿红色衬衫的人或最近的交通事故)。该系统还可以整合传感器数据,提供全面的情况分析,适用于交通管理、目标搜索和紧急响应。智能家居和个性化服务。在智能家居环境中,用户可以通过语音命令(例如,浪漫晚餐设置)表达他们期望的氛围,允许系统检索和播放符合所请求氛围的音乐或视频。内容创作。设计师可以描述一个设计概念,促使系统自动检索和组合相关的草图、色彩方案和音频样本,以生成一系列创意提案。例如,通过提供简单的草图和文本描述,如现代办公空间,系统可以提供即时反馈。智能法律咨询和文件检索。用户可以通过语言查询法律问题,促使系统自动检索相关的法律文本、案例图像和文件,以生成专业的法律建议。对于复杂案例,系统可以基于多模态输入迅速汇编相关的案例法和法律解释。新闻场景。文本搜索功能可以让用户快速访问实时热门新闻,回顾历史事件,编制专题报告,并可能实现个性化的新闻推荐。总之,多模态复合检索是一项高度多功能的技术,具有广泛的应用潜力。它不仅提高了信息检索的准确性和用户体验,还为个性化和情境感知的应用提供了关键支持。随着技术的不断发展,多模态复合检索在各个领域中扮演着越来越重要的角色。
3 方法
3.1 图像-文本复合编辑
图像-文本复合编辑(ITCE)基于给定的文本提示操作图像中的特定元素,这与图像-文本复合检索密切相关。这被称为文本条件图像生成,有选择地修改与文本输入相关的图像部分,同时保持无关区域不变。由于其多功能性和迭代增强的潜力,ITCE在各个领域都有广泛的应用。图像-文本复合编辑的两大类别包括生成对抗网络(GANs)和扩散模型,如表1所示。
3.1.1 基于GAN的方法
条件GAN(cGAN)方法。在基于GAN的方法中,条件GAN(cGANs)使用额外的信息(例如,文本指导)作为条件输入来生成特定图像。我们将基于cGAN的方法分为两类:单次生成方法和多次生成方法。单次生成。大多数现有的图像-文本复合编辑任务是静态的单次生成。其中,一些研究专注于增强生成器G组件。例如,SISGAN利用编解码器架构和生成器中的残差转换单元,其中编解码器和转换单元编码图像和文本的组合特征,基于此,解码器合成图像。其他研究专注于增强鉴别器D。例如,TAGAN采用文本自适应鉴别器,在单词级别评估文本描述与图像之间的一致性,使得能够进行细粒度修改,精确地针对文本相关区域,同时保留无关区域。还有一些研究专注于改进生成器G和鉴别器D,基于这样的前提,即每个图像可以分解为域不变内容空间和域特定属性空间。它们通过建模高维内容特征来提高生成性能。例如,TIM-GAN将文本作为神经操作符来修改输入图像在特征空间中的图像,它通过预测的空间注意力掩模合成编辑后的图像。多次生成。多次生成方法通过一系列指令进行迭代修改,分多个步骤执行。SeqAttnGAN利用神经状态跟踪器在序列的每一步对先前的图像和相应的文本进行编码,使用顺序注意力机制。RAM利用循环注意力模型整合图像和语言特征。它为每个图像区域引入了一个终止门,动态决定在每次推理步骤后是否继续从文本描述中提取信息。Long and Short-term Consistency Reasoning Generative Adversarial Network(LS-GAN)具有Context-aware Phrase Encoder(CPE)和Long-Short term Consistency Reasoning(LSCR)模块,捕捉长期视觉变化并使新添加的视觉元素与语言指令对齐。IR-GAN包括一个推理鉴别器,以评估现有视觉元素、视觉增量和相应指令之间的一致性。
StyleGAN基础方法。StyleGAN生成高质量图像通过在良好解耦的潜在空间内操作,以其能够产生高保真图像而闻名。许多方法利用StyleGAN的潜在空间来有效解耦和操作粗略和精细视觉特征。例如,TediGAN嵌入文本信息到潜在空间并通过修改潜在代码和搜索操作方向来增强编辑性能,并且在预训练的GAN模型中插值潜在向量。传统方法通常需要大量标记数据来识别GAN潜在空间中的有意义方向,这需要相当多的人力努力。利用CLIP强大的图像-文本表示能力可以帮助缓解这个问题。一些方法结合了StyleGAN的图像生成能力和CLIP的通用图像-文本表示能力来识别编辑方向。这些基于StyleGAN的方法可以分为两类:“无掩模”和“有掩模”根据是否使用掩模来指导生成模型。至于那些没有额外掩模的方法,StyleCLIP引入了三种图像-文本复合编辑策略,例如潜在优化、潜在映射器和全局方向。具体来说,潜在优化通过最小化CLIP空间中的损失来调整图像的潜在代码,以语义对齐给定的文本。潜在映射器涉及训练一个网络来预测潜在空间中的操作步骤,这取决于起始位置。全局方向将文本提示转换为潜在空间中的通用映射方向,实现细粒度和解耦的视觉编辑。TediGAN编码图像和文本到潜在空间以执行风格混合。
StyleMC在每个提示的基础上进行微调,通过结合CLIP损失和身份损失发现稳定的全局方向。传统上,这两个空间之间的潜在映射是手动制作的,这限制了每个操作模型仅适用于特定的文本提示。为了克服这个限制,FFCLIP引入了自由形式CLIP(FFCLIP),一种通过交叉注意力机制创建自动潜在映射的方法,涉及语义对齐和注入,使单一操作模型能够处理自由形式的文本提示。DeltaEdit结合了CLIP DeltaSpace,它在语义上对齐两幅图像之间的视觉特征差异与它们相应描述中的文本特征差异。CLIP2StyleGAN连接了预训练的StyleGAN和CLIP的潜在空间,自动推导StyleGAN中的语义标记编辑方向。它通过利用CLIP图像空间来识别潜在的编辑方向,使用CLIP文本编码器来解耦和标记这些方向,然后将标记的、解耦的方向映射回StyleGAN潜在空间,以实现各种无监督的语义修改。一些方法使用掩模来完成操作。HairCLIP首先使用StyleGAN反演方法“e4e”获得输入图像的潜在代码,然后使用映射网络预测潜在代码的变化和编辑条件,最终将修改后的潜在代码输入到预训练的StyleGAN中以生成图像。
Paint by Word利用CLIP提供对生成图像的反馈,根据给定的掩模在用户指定的区域内执行操作。TIERA利用基于区域的空间注意力机制来准确识别编辑区域。它首先使用CLIP对文本输入进行编码,然后使用一个映射模块根据文本嵌入调整原始图像的风格代码。SegmentationGAN使用图像分割网络来确定文本相关和不相关区域,使用CLIP作为损失函数来确保修改和未修改区域之间的一致性。与早期方法相比,这些方法在很大程度上依赖于在潜在空间中解耦各种属性,FEAT使用学习到的注意力掩模来集中注意力于编辑区域,并将修改限制在特定的空间区域。PPE首先预测与指定文本命令相对应的可能纠缠的属性,然后引入一个解耦损失。ControlGAN基础方法。ControlGAN允许在基于自然语言描述的特定方面控制生成过程ControlGAN基础方法。ControlGAN允许在基于自然语言描述的特定方面控制生成过程,以合成高质量图像。ManiGAN在ControlGAN的多阶段架构基础上构建,引入了一个包括文本-图像仿射组合模块(ACM)和细节校正模块(DCM)的多级框架。Segmentation-aware GAN结合了图像分割网络到生成对抗框架中,类似于ManiGAN。分割编码器基于预训练的Deeplabv3,检测输入图像的前景和背景,提高了模型生成上下文准确和视觉连贯图像的能力。其他基于GAN的方法。从开放领域文本提示中创建和编辑图像一直是一个挑战,通常需要昂贵且特别设计的模型。VQGAN-CLIP采用了一种创新的方法,使用CLIP引导VQGAN,调整候选生成与引导文本之间的相似性。OpenEdit是第一个探索开放领域图像编辑的方法,使用开放词汇指令。DE-Net动态组装各种编辑模块以适应不同的编辑需求。CAFE-GAN专注于编辑与目标属性相关的面部区域,通过识别具有目标和补充属性的特定区域。IIM构建了一个神经网络,该网络在潜在空间内的图像向量上操作,使用指令向量将源向量转换为目标向量。
3.1.2 基于扩散的方法
我们根据引导机制将基于扩散的方法分类,即基于掩模的方法、无分类器方法和基于CLIP的方法。基于掩模的方法。基于掩模的方法使用掩模来定位需要修改的特定区域。例如,Blended Diffusion结合了CLIP引导和去噪扩散概率模型,通过引入不同级别的噪声来无缝混合编辑和未触动的图像区域。后续的工作自动生成掩模,使用交叉注意力图替换手动掩模。这些方法可以进一步分为手动掩模、自动掩模和可选掩模方法。手动掩模。Glide比较了CLIP引导和无分类器引导,发现后者更受青睐,因为它能够利用内部知识进行引导,从而简化了分类器经常难以处理的条件过程。Blended Diffusion结合了CLIP引导和去噪扩散概率模型,通过在不同级别引入噪声来无缝混合编辑和未触动的图像区域。自动掩模。InstructEdit使用自动掩模进行精确编辑,通过使用ChatGPT和BLIP2将文本指令转换为分割提示、输入标题和编辑后的标题,使用Grounded Segment Anything生成掩模,并使用Stable Diffusion完成编辑后的图像。
DiffEdit自动推断掩模以指导文本条件扩散模型中的去噪过程,最小化非预期编辑。Shape-Guided Diffusion从提示中生成对象掩模,并使用Inside-Outside Attention来限制注意力图。Custom-Edit通过优化与语言相关的参数来定制扩散模型,并应用P2P和Null-text inversion技术进行精确编辑。IIR引入了Image Information Removal模块,在增强文本相关细节的同时保留非文本相关内容。可选掩模。PRedItor使用混合扩散模型(HDM),使用CLIP嵌入进行更准确的反演,并实现无需额外输入或优化的结构保持编辑。SDEdit通过从基础图像的噪声版本开始采样过程来编辑图像。然而,这种方法在细节恢复方面效果较差,特别是当需要显著的像素级变化时。无分类器方法。无分类器方法指导生成过程通过直接调整来自条件和无条件模型输出的结果,而不是使用预训练的分类器来引导扩散过程。为了减轻在单个图像上微调预训练扩散模型时的过拟合问题,SINE引入了一种基于无分类器引导的新颖模型引导方法,将从在单个图像上训练的模型中获得的知识蒸馏到预训练的扩散模型中。
Prompt-to-Prompt增强了编辑质量,利用了文本到图像模型中间注意力矩阵编码的视觉语义数据。然而,这种技术依赖于注意力权重,限制了其应用到扩散模型生成的图像。MasaCtrl通过将传统自注意力转换为相互自注意力来增强文本-图像一致性。Imagic是一个预训练的文本到图像扩散模型,首先优化文本嵌入以产生类似于输入图像的图像。InstructPix2Pix结合了GPT-3和Stable Diffusion的优势,创建了一个图像编辑数据集,捕捉了来自语言和图像的互补知识。这个训练过程的成功高度依赖于数据集的质量和扩散模型的性能。Unitune建立在图像生成模型可以通过在单个图像上微调来适应图像编辑的观点上。PTI设计了Prompt Tuning Inversion,这是一种高效准确的文本驱动图像编辑技术。
Plug-and-Play是一个现代模型,它利用中间层的注意力图将一个图像的特征转移到另一个图像。MDP引入了一个框架,该框架划分了适当操作的设计空间,确定了五种不同类型:中间潜在、条件嵌入、交叉注意力图、引导和预测噪声。基于CLIP的方法。DiffuseIT提出了一种基于扩散的无监督图像翻译方法,利用解耦的风格和内容表示。受Splicing ViT启发,DiffuseIT结合了一个损失函数,该函数利用预训练ViT模型多头自注意力层的中间键来指导DDPM模型的生成过程,从而确保内容保持和语义修改。DiffusionCLIP使用确定性的DDIM噪声过程来准确识别生成目标图像所需的特定噪声。
3.1.3 总结
GANs以其生成高保真图像的能力而闻名,使其成为图像-文本复合编辑的流行选择。这种方法中的关键技术包括解耦潜在空间和优化生成器参数以提高跨模态特征对齐。通过利用CLIP的表示能力,GANs可以更有效地识别潜在方向并测量与文本提示的相似性。这些能力允许基于文本描述进行精确和受控的图像操作。扩散模型最近作为一种强大的替代方案出现,通过迭代去噪从噪声中合成高质量图像。通过与各种图像-文本方法集成,扩散模型显著推动了图像编辑的边界,特别是在质量和灵活性方面。虽然GANs擅长生成高分辨率图像并进行控制编辑,扩散模型提供了一种更系统和迭代的图像生成方法,特别是在复杂场景中,关键区别在于GAN的对抗训练和扩散的渐进去噪。一些挑战和视角总结如下。
-
一致性维护:未来的技术应专注于通过确保文本无关的图像区域保持不变,同时有选择地修改文本描述中的属性,来维护一致性。这对于在目标编辑期间保持整体图像的连贯性至关重要。
-
精度增强:提高精度至关重要,这包括能够在图像中的多个对象上操纵特定属性。这包括细化编辑的粒度,特别是在具有多个对象的复杂场景中。
-
在复杂场景中的鲁棒性:增强模型在开放领域场景和复杂场景中执行现实修改的能力是另一个关键挑战。随着场景复杂性的增加,编辑后保持现实感的能力变得越来越重要。
3.2 图像-文本复合检索
在图像-文本复合检索领域,目标是利用参考图像和指定参考和目标图像之间差异的文本描述来识别目标图像。文本用于修改参考图像。由于这项任务涉及通过引入文本中的修改指令来对齐参考图像和目标图像,因此这项任务也可以称为“文本引导的图像检索”。如图3所示,复合图像检索的标准框架包括三个主要组件:特征提取、图像-文本组合模块和对齐。传统上,图像表示是从卷积神经网络(CNN)或视觉变换器(ViTs)的最后一层获得的,而文本编码器通常依赖于循环神经网络(RNNs)、LSTM、GloVe、BERT和GRUs。最近,随着大型模型的出现,CLIP的编码器由于其对齐良好的文本和图像表示而变得越来越受欢迎。
通过全面的回顾,我们根据图像编码器的主干对图像-文本复合检索方法进行了分类,包括基于CNN的(§3.2.1)、基于变换器的(§3.2.2)、基于大型模型的(§3.2.3)和混合方法(§3.2.4)。从框架的角度来看,一些方法专注于设计组合模块以提高性能,而其他方法强调额外的模块来提高性能,还有一些方法旨在增强整体框架。图像-文本复合检索(ITCR)的发展经历了显著的演变,从基于CNN的到基于变换器的主干,最近又发展到大型模型。这一进展是由计算机视觉和自然语言处理中的深度学习的进步所驱动的。像CLIP和BLIP这样的大规模预训练跨模态模型进一步提高了ITCR,利用其在多模态表示方面的强大的能力。为了清晰起见,我们在表2中提供了ITCR方法的详细总结。
3.2.1 基于CNN的方法
卷积神经网络(CNNs)在提取图像的层次化特征方面发挥了关键作用。[6]已经证明,CNN的上层的激活可以作为图像的复杂视觉内容描述符。具体来说,通过在最后一个CNN层使用全局池化,可以在ImageNet上预训练的CNN(例如,AlexNet、VGG、ResNet、DenseNet、GoogleNet和MobileNet)用于获得图像嵌入,并在各种计算机视觉任务中取得了显著的成功。因此,许多基于CNN的方法采用CNN主干作为图像编码器来进行ITCR任务。为了实现更细粒度的特征提取,SAC使用多个层次来捕获粗略和细粒度的特征。LBF使用Faster R-CNN来改善文本和图像特征的组合。这些特征的融合通常被分类为粗略和细粒度方法。粗略融合,如[4]、[27]、[30]、[44]、[77]、[88]、[106]、[115]、[190]、[214]、[217]所提出的,涉及将每个模态的高级特征整合到一个统一的表示中,这通过保持整体上下文来增强检索性能。相比之下,细粒度融合,如[21]、[92]、[201]、[221]、[240]所提出的,将特征分割成独立的模块(例如,风格和内容模块)然后将输出组合成最终表示。
粗略融合方法。粗略融合是一种在多模态复合检索系统中常用的技术,用于整合信息。它涉及将每个模态提取的高级特征合成一个统一的表示。目标是捕获每个模态的关键信息,同时保持整体上下文,从而提高检索性能。
门控机制。在文本图像残差门控(TIRG)中,首次提出了文本引导的图像语义对齐任务,通过使用学习到的门控残差连接和残差连接,有选择地基于文本描述修改图像特征,同时保留与文本无关的图像部分。许多后续方法采用了TIRG的门控机制作为它们的组合模块。JVSM在视觉语义嵌入框架内联合学习统一的联合视觉语义匹配。它旨在编码视觉数据(即输入图像)和文本数据(即属性描述)之间的语义相似性。CurlingNet设计了两个网络,名为Delivery filters和Sweeping filter,前者在嵌入空间中传递参考图像,后者强调目标图像中与查询相关的组件,旨在找到一组目标图像的更好排名。DCNet引入了双组合网络,通过考虑前向(组合网络)和反向(校正网络,它在嵌入空间中对参考和目标图像之间的差异进行建模,并将其与文本查询嵌入对齐)路径。EER通过系统地建模两个关键子过程:图像语义擦除和文本语义补充,来解决复合图像检索任务。为了探索不同模态之间的内在关系,Yang等人引入了联合预测模块。为了缓解由不同预训练模型和不同潜在空间引起的语义不一致问题,AET将参考图像和目标图像视为一对转换图像,并将修改文本视为隐式转换。为了解决数据稀缺和泛化能力低的问题,RTIC使用图卷积神经网络(GCN)作为正则化器,通过促进相邻邻居之间的信息传播。考虑到训练数据的特征显著影响训练结果,并考虑到传统数据通常导致过拟合并表现出低多样性的训练分布,数据增强变得至关重要。因此,Huang等人提出了梯度增强(GA)模型,这是一种隐式数据增强,灵感来自对抗性训练以抵抗扰动,以及梯度变化也可以在某种程度上反映数据变化的合理性。注意力机制。LBF通过一组局部实体表示参考图像,并建立修改文本中每个单词与这些局部区域之间的关系。这种方法实现了文本和图像之间的双向相关性。然后它通过结合跨模态注意力模块来执行融合过程。