专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
目录
相关文章推荐
老俞闲话  ·  老俞闲话|创造价值是做商业的核心逻辑 ·  昨天  
重庆校园频道  ·  2025年全国中小学生英语作文征集活动正式启 ... ·  昨天  
楼市小青蛙  ·  长沙派位最好的十大小学 ·  2 天前  
51好读  ›  专栏  ›  集智书童

VGG组再次出手提出 ELIP | 革新文本-图像检索,视觉Prompt预测+轻量训练性能超BLIP2

集智书童  · 公众号  ·  · 2025-03-05 09:00

正文

点击下方卡片,关注 「集智书童」 公众号

点击加入👉 「集智书童」 交流群





导读

本文的目标是提升文本到图像检索的性能。为此,作者提出了一种新的框架,该框架能够提升大规模预训练视觉语言模型的表现,使其能够用于文本到图像的重排序。该方法,增强语言-图像预训练(ELIP),利用文本 Query 来预测一组视觉 Prompt ,以条件化ViT图像编码。ELIP可以轻松应用于常用的CLIP/SigLIP以及最先进的BLIP-2架构。为了在有限的计算资源下训练架构,作者开发了一种“学生友好型”的最佳实践,包括全局硬样本挖掘以及大规模数据集的选择和整理。在评估方面,作者建立了两个新的分布外基准,即遮挡COCO和ImageNet-R,以评估模型对不同领域的零样本泛化能力。得益于新颖的架构和数据整理,实验表明,作者的增强网络显著提升了CLIP/SigLIP的性能,并在文本到图像检索方面优于最先进的BLIP-2模型。

1. 引言

在本文中,作者考虑了经典的文本到图像检索问题,该问题旨在根据图像实例与文本 Query 的相关性对其进行排序。有效的检索通常包括两个阶段:第一阶段以快速高效的方式提供初始排序,而第二阶段——称为重排序——通过使用更昂贵的重排序模型重新计算文本 Query 与每个高排名候选者之间的相关性分数来细化这个排序。

近年来,文本到图像检索的进展主要集中在第一阶段。一些显著的模型,如CLIP [65] 和 ALIGN [40],通过在大规模图像-文本对上应用对比学习 [60] 来学习联合表示,展示了在跨模态检索任务中令人印象深刻的泛化能力。

本文的主要贡献集中在检索流程的第二阶段,即重排序。具体而言,作者的目标是提升现有视觉-语言基础模型的表现,使其能够重新用于从快速检索过程中重排序前 个候选结果。作者开发的方法称为增强语言-图像预训练(ELIP),它仅需要少量可训练参数,并且可以使用“学生友好”的资源和数据高效地进行训练。作者证明了ELIP可以提升预训练的CLIP[65]、SigLIP[93]和BLIP-2[47]图像-文本模型的表现。

为实现这一目标,首先,作者引入了一个轻量级的文本引导视觉 Prompt 模块。如图1所示,在ELIP中, Query 文本被映射到一组视觉 Prompt 向量[41],然后与图像编码器的[CLS]和 Patch 嵌入进行拼接。这些增强嵌入随后被传递到冻结的视觉编码器中以重新计算图像表示。生成的图像嵌入能够感知文本条件,这增强了其在重排序中的性能。

作为第二项贡献,作者解决了模型训练的问题。在训练大型视觉-语言模型时存在两个主要挑战:首先,数据规模——为了实现强大的泛化能力,需要在数百万或数十亿张图像上进行训练,但这成本高昂;其次,批量大小——为了增强模型的判别能力,需要在较大的批量大小下进行训练,但这需要大量的GPU。在这里,作者通过引入策略来选择和整理具有最大信息量的训练数据集,并在批量中将困难样本分组,以使小批量训练有效,从而提出了一种最佳实践。

为了评估ELIP模型的重排序性能,作者使用了标准的COCO [50] 和 Flickr30k [63] 文本到图像检索基准。作为一个进一步的挑战,作者还评估了ELIP增强模型在分布外域的泛化能力。为此,作者将Occluded COCO [44] 和 ImageNet-R [33] 数据集重新用于文本到图像检索基准。

总结如下,做出了以下四项贡献:

  • • 首先,提出了一种新颖的架构,旨在提升基于文本的图像检索在大规模预训练视觉语言模型上的性能,包括最流行的CLIP/SigLIP架构以及最先进的BLIP-2架构。
  • • 其次,提出了一种最佳实践,以有限的资源高效地训练作者的架构。
  • • 第三,为了评估文本到图像检索模型对不同分布外域的泛化能力,作者建立了两个新的文本到图像检索基准,即Occluded COCO和ImageNet-R。
  • • 第四,证明了ELIP在标准基准COCO和Flickr上,以及在新的OOD基准上,显著提升了CLIP/SigLIP,并超越了最先进的BLIP-2模型。

2. 相关工作

文本到图像检索是跨模态学习中的一个基本且研究广泛的任务[11-16, 19, 20, 22, 25,28,35,38,39,42,43,45,46,48,52,53,65,72,75,79- 85, 89, 91, 92, 95-99]。然而,具有强大零样本能力的如CLIP[36, 65]、SigLIP[93]、ALIGN[40]和BLIP-2[47]等大规模预训练视觉语言模型,现已成为开放式文本图像检索的事实方法。最新的工作[71]通过结合目标检测器的输出或检测边界框的标注,在BLIP-2的基础上略有改进。这成功地克服了模型未能正确理解图像中虽小但语义上重要的物体的情况。作者与该模型进行了比较,并超越了其性能。

检索后重排序。对于单模态图像检索,其中 Query 项为图像,已有一系列工作通过经典计算机视觉算法对初始排名中的前 个图像进行重排序,例如“ Query 扩展”、“几何验证”或两者的结合[3, 17, 18, 37, 62, 77],以及通过基于学习的算法[4, 8, 21, 32, 74]。在文本到图像检索中,重排序算法相对较少被探索[54, 64, 90]。[57]介绍了一种通过估计文本在图像条件下的对数似然来计算图像与文本 Query 之间相似度得分的方法。虽然这种方法表现出强大的性能,但在训练和推理过程中都计算成本较高,使得整个过程较慢。作者的论文也专注于重排序阶段——开发一个更强大的视觉-语言基础模型版本,以对原始检索模型难以区分的图像给出更好的排序。

多模态数据集。为了获得具有强大泛化能力的多模态基础模型,在大型多模态数据集上对其进行训练至关重要。因此,近年来,提供图像-文本对的多模态视觉-语言数据集的数量和规模显著增加,例如COCO [50]、SBU [61]、概念性标题 [69]、LAION [67]、DataComp [27]。多模态数据集规模的增加使得训练更强大的视觉-语言基础模型成为可能。最近,DataCompDR [78] 利用大规模预训练图像标题模型的知识来为DataComp图像生成合成标题,从而比从网络收集的数据集(如原始DataComp数据集)生成的标题噪声更少。在作者的论文中,作者尝试使用概念性标题 [69] 和 DataCompDR [78] 训练ELIP。

多模态数据整理。对多模态数据集进行数据整理至关重要,因为它能够使训练更加高效和有效,尤其是在资源有限的情况下。在数据整理方面已经进行了持续的努力,例如离线示例级数据修剪[6, 9, 26, 27, 34, 40, 56, 87]、离线聚类级数据修剪[1, 2, 7, 30, 73]以及基于模型的评分的在线数据整理[23, 51, 55, 58]。最近的工作JEST[24]利用一对学习模型和参考模型来选择模型能够学习但尚未学习的批量数据。这启发作者选择最有效的批量数据来训练BLIP-2架构。与作者相关的一系列工作还包括困难负样本挖掘,该技术既在经典度量学习[5, 31, 59, 70, 86, 88]中得到了探索,也在现代对比学习中得到了应用[66, 76]。

高效视觉语言预训练。为了更高效地从零开始预训练视觉语言基础模型,[29, 49] 在预训练过程中删除图像 Token ,以实现更快的训练速度,并训练包含更多样本的批次。

3. 预备知识

图像检索中的重排序。给定一个输入 Query ,检索系统的目标是根据 Query 的相关性对数据集 中的所有实例进行排序。在文本到图像检索的情况下, Query 由文本 指定,理想的结果是得到一个集合 ,其中相关图像的排名高于不相关的图像。一般来说,一个有效的检索系统分为两个阶段:第一阶段以快速高效的方式提供初始排名,而第二阶段——称为重排序——通过使用更强大(通常也更昂贵)的排名模型重新计算文本 Query 与每个第一阶段TopK排名候选者的相关性分数,从而细化这个排名。K的选择应确保对所有相关图像都有较高的召回率。在本文中,作者的创新点集中在第二阶段,旨在对第一阶段结果中的TopK候选者进行重排序。

视觉 Prompt 微调(VPT)[41]是一种通过在Transformer层中插入额外的可学习 Prompt 来改进ViT图像编码器的方法。它使得ViT的适应变得高效,仅需训练少量可学习 Prompt 的参数。VPT有两种不同的变体——VPT-Shallow和VPT-Deep。VPT-Shallow仅将额外的视觉 Prompt 插入到第一个Transformer层,而VPT-Deep则在每个Transformer层的输入空间引入 Prompt 。作者将生成的视觉 Prompt 向量集插入到ViT的第一个Transformer层,这与VPT-Shallow类似。

4. ELIP架构

在本节中,作者描述了ELIP文本到视觉 Prompt 映射网络,该网络可以高效地应用于适配常用的CLIP/SigLIP架构以及最先进的BLIP-2架构以进行重排序。作者首先在4.1节中介绍网络的架构,然后在4.2节和4.3节中分别介绍在CLIP/SigLIP和BLIP-2上的训练/推理策略。作者将应用于CLIP的网络称为ELIP-C,应用于SigLIP的称为ELIP-S,应用于BLIP-2的称为ELIP-B。

4.1 文本引导的多层感知器映射网络

在本工作中,作者提出了一种映射网络,该网络将文本 Query 的嵌入投影到视觉嵌入空间中的一组 Prompt 向量中。然后,这组 Prompt 向量被纳入视觉Transformer(ViT)图像编码器的第一层,作为额外的 Token 用于重新计算视觉嵌入。

T 表示 Query 文本,首先使用预训练的冻结文本编码器 对其进行编码,得到 m+1 个嵌入。[CLS] Token 随后被输入到一个可训练的映射网络中,以生成 Prompt 向量。这些向量与 个图像嵌入 连接,然后传递给预训练的冻结视觉编码器

架构如图2 和图3 所示。

4.2 使用ELIP-C/ELIP-S进行训练和推理

文本引导的对比训练。在训练时,作者计算文本 Query 的[CLS] Token Embedding







请到「今天看啥」查看全文