专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
DeepTech深科技  ·  AI仅用两天攻克超级细菌“十年难题”,内含六 ... ·  3 天前  
爱范儿  ·  OPPO Find N5 ... ·  4 天前  
51好读  ›  专栏  ›  FightingCV

IDEA:图像描述增强型CLIP适配器

FightingCV  · 公众号  ·  · 2025-01-19 09:00

正文

摘要

CLIP(对比语言图像预训练)在模式识别和计算机视觉领域取得了巨大的成功。 将CLIP迁移到下游任务(例如零样本或少样本分类)是多模态学习中的一个热门话题。 然而,目前的研究主要集中在文本的提示学习或视觉的适配器调优上,并没有充分利用图像-文本对之间的互补信息和相关性。 在本文中,我们提出了一种图像描述增强型CLIP适配器(IDEA)方法,以将CLIP适应于少样本图像分类任务。 此方法通过利用图像的视觉特征和文本描述来捕获细粒度特征。 IDEA是一种针对CLIP的免训练方法,它在多个任务上的性能可以与最先进的模型相媲美,甚至超过它们。 此外,我们引入了可训练的IDEA(T-IDEA),它通过添加两个轻量级的可学习组件(即一个投影器和一个可学习的潜在空间)来扩展IDEA,进一步增强了模型的性能,并在11个数据集上取得了最先进的结果。 作为一项重要的贡献,我们使用了Llama模型并设计了一个全面的流程来生成11个数据集图像的文本描述,共产生1,637,795对图像-文本对,命名为“IMD-11”。我们的代码和数据已发布在https://github.com/FourierAI/IDEA。

关键词:

CLIP,适配器调优,图像-文本对,多模态学习,少样本图像分类

journal: Pattern Recognition

[aff1]organization=泰州科技学院,南京理工大学,city=泰州,postcode=225300,state=江苏,country=中国 [aff2]organization=西交利物浦大学智能科学系,city=苏州,postcode=215123,state=江苏,country=中国 [aff3]organization=昆山杜克大学,city=苏州,postcode=215123,state=江苏,country=中国

1 引言

虽然动物主要通过视觉系统感知世界,但只有人类在数百万年的时间里进化出了语言系统。 语言使人类能够以逻辑推理的方式理解、使用和创造事物,最终进化成智能。 在计算机视觉领域,一些研究 [1, 2, 3] 表明,将语言/文本信息融入视觉任务可以显著增强模型的视觉理解能力,从而提高其性能。 CLIP(对比语言-图像预训练) [1] 是一种双塔结构的视觉-语言模型(VLM),由视觉编码器和文本编码器组成。 CLIP 使用对比学习对大规模图像文本对进行预训练。 在此过程中,图像和文本数据相互作用,赋予模型泛化能力,并使CLIP能够对训练期间未见过的图像进行分类(称为零样本学习) [4, 5]

近年来,针对下游视觉任务微调CLIP已成为一个热门研究课题 [6, 7] 值得注意的是,PEFT是一种新颖的微调方法,它冻结模型主干参数,并在下游数据集上微调整合的轻量级可学习参数 [8] PEFT在某些任务上达到了甚至超过了完全微调的性能。 最近的研究集中在探索用于CLIP的PEFT。 线性探测 [1] 利用CLIP的视觉编码器提取特征,然后将其馈送到线性层进行训练,使其能够处理少样本图像分类任务,其中每个数据类别只有非常有限数量的样本可用 [9, 10, 11] 后续研究 [12, 13] 侧重于利用文本特征来提高少样本学习的性能。 如图 1 所示,CoOp [12] 和CoCoOp [13] 通过结合可学习的文本提示来提高少样本图像分类性能。 CLIP-Adapter [14] 优化了一个视觉适配器,这是一个两层的多层感知器(MLP),用于学习用于少样本图像分类任务的新视觉特征。 在无训练CLIP-Adapter(Tip-Adapter) [15] 中,两层MLP被缓存模型取代,这显著提高了少样本图像分类任务的性能。



图1: 不同CLIP PEFT的比较。 CoOp [12] 和CoCoOp [13] 具有相似的架构。 Tip-Adapter [15] ,一个扩展版本,与CLIP-Adapter [14] 具有相同的架构。 与之前的工作不同,(T)-IDEA引入了一个多模态适配器,该适配器探索了图像-文本对之间的互补关系和语义关联。

上述工作主要集中在优化文本提示或视觉适配器上,没有充分利用图像-文本对之间的互补关系和固有语义关联,从而限制了它们的性能。 为此,在本文中,我们提出了一种新颖的多模态适配器,即图像描述增强CLIP适配器(IDEA),其中针对少样本分类任务,从训练集中检索测试图像与图像-文本对进行匹配。 IDEA是一种免训练方法,但其性能可与监督训练方法相媲美。 此外,我们引入了可训练的图像描述增强CLIP适配器(T-IDEA),它在IDEA中采用了两个可学习组件以进一步提高模型的性能。 T-IDEA在11个常用图像数据集上取得了最先进的(SOTA)性能。 此外,大多数图像数据集缺乏相应的图像描述,并且对这些数据集进行标注既费时又费力。 我们使用Llama [16] 并设计了一个全面的流程来为每个图像生成文本描述。

本文的贡献总结如下:

  • 1.

    我们提出了IDEA,它利用图像-文本对之间的互补关系,并在免训练范式中探索跨多模态的语义关联,以实现少样本图像分类。

  • 2.

    我们提出了T-IDEA,它通过采用轻量级投影层和可学习的语义潜在空间来扩展IDEA,从而提高IDEA的性能。

  • 3.

    我们设计了一个全面的流程,为11个公共图像数据集生成图像描述,总共产生了1,637,795个图像-文本对。 我们的数据集,被称为“IMD-11”,已公开发布。

  • 4.

    我们在11个公共图像数据集上评估了所提出的方法。 实验结果表明,IDEA和T-IDEA在免训练和需要训练的环境下分别优于SOTA方法。

2 相关工作

本节回顾了与本文相关的文献,包括视觉语言模型 (VLM) 和参数高效微调 (PEFT)。

2.1 视觉语言模型

模态是人类感知和认知世界的方式,包括视觉、文本、听觉、触觉等 [17, 18, 19] 对于人类来说,视觉和文本是他们感知世界的主要方式,这吸引了世界各地学者的广泛研究兴趣 [7, 20, 21] Transformer 的发明 [22] 为计算机视觉 (CV) 和自然语言处理 (NLP) 提供了一个统一的模型,并催生了 VLM 的发展 [1] VLM 是一种预训练模型,其训练方法主要分为图像文本对比学习和基于生成目标的预训练 [17]

图像文本对比学习。 图像文本对比学习是训练 VLM 最常用的方法。 它采用对比学习来处理输入的图像文本对,确保语义相似的图像文本对在嵌入空间中距离较近,而语义不同的图像文本对在嵌入空间中距离较远。 CLIP [1] 从互联网上收集并清洗了 4 亿对图像文本对,并使用 InfoNCE 损失函数进行预训练。 随后,CLIP 通过评估测试样本和类别名称之间的相似性来执行零样本图像分类。 ALIGN [2] 采用了相同的预训练方法,它收集了 18 亿对噪声图像文本对,也取得了良好的结果。 ALIGN 的成功验证了,即使数据中可能存在大量噪声,多模态模型也可以通过扩大训练数据规模来学习良好的视觉语言表示。 ALIP [3] 假设从互联网上收集的图像是嘈杂的,并通过大语言模型 (LLM) 为每个图像生成标题,之后在一个双路径模型上对生成的标题和原始文本进行预训练。 ZeroVL [23] 提出了一种综合流程,即无偏数据采样和抛硬币混合,以 1400 万个样本的有限训练集训练模型。 PyramidCLIP [24] 通过跨层和同行对比学习实现细粒度语义对齐。

基于生成目标的预训练。 基于生成目标的预训练是训练视觉语言模型 (VLM) 的另一种主要方法,它会掩盖原始数据的一部分,并通过上下文重新生成被掩盖的内容,从而学习各种模态之间的语义关联。 KELIP [25] 将图像分割成多个图像块,并随机掩盖其中一些,然后通过图像上下文恢复被掩盖的图像块,这也在 MAE [26] 中使用。 SegCLIP [27] 提出了一个重构损失和一个基于超像素的 KL 损失来增强模型的视觉表示,以无标注的方式实现了开放词汇图像分割。 FIBER [28] 集成了对比损失、生成损失和对齐损失,提出了一种用于 VLM 粗粒度到细粒度预训练的深度多模态融合方法。 FLAVA [29] 掩盖 40% 的图像块和 15% 的文本符元,然后使用多层感知器 (MLP) 来预测被掩盖的图像块和符元,以更好地捕捉视觉和语言之间的关联。 上述方法通过恢复图像或文本的部分内容来预训练 VLM,其他一些模型甚至可以从图像-文本对中恢复完整的图像或图像描述。 扩散模型 [30, 31, 32] 使用文本作为提示来生成与文本一致的相应图像。 COCA [33] 采用编码器-解码器架构来预训练 VLM,其中输入是图像,输出是与图像对应的标题。 LLaVA [34] 使用预训练的 CLIP 图像编码器来获取图像特征,然后通过可训练的投影层将图像特征转换为文本符元,这可以显著提高模型的多模态理解能力。 Llama [16] 使用轻量级投影层来对齐输入图像和文本,并使用交叉注意力机制进行模态间融合。

2.2 参数高效微调

在过去的几年里,在大型数据集上对预训练模型进行微调以适应下游任务已经主导了深度学习范式。 然而,这种方法存在显著的缺点 [8] 首先,对于大型模型而言,完全微调具有挑战性、耗时且不可持续。 其次,在下游任务上对大型模型进行微调可能会导致灾难性遗忘。 为了解决这些问题,一些学者提出了参数高效微调 (PEFT) [8, 35] PEFT 是一种新的微调方法,它冻结主干网络的所有参数,并通过微调附加到模型上的额外模块的参数来使模型适应不同的下游任务。 PEFT大致分为两种类型:提示微调和适配器微调。

提示微调。 提示微调通过在模型的输入层或隐藏层中添加可学习的符元作为可学习的提示来适应下游任务。 受 NLP 中提示学习的启发,VPT [36] 首次将提示微调技术应用于视觉任务。 VPT 通过在输入空间中添加一些提示符元来微调模型,并在多个任务中优于大多数全微调方法。 CoOp [12] 使用可学习的符元向量而不是手动设计的提示作为文本编码器的输入,在少样本图像分类任务中取得了令人称赞的性能。 在 CoOp 的基础上,CoCoOp [13] 设计了一个轻量级神经网络为每个图像生成提示,这被称为条件提示学习。

适配器微调。 在适配器微调中,模型配备了额外的可学习层(例如 MLP、Transformer [37] )以适应下游任务。 CLIP-Adapter [14] 使用一个额外的轻量级瓶颈层(即分别位于视觉编码器和文本编码器的最后一层之后的两个线性层)来学习新特征,并通过残差连接将它们与原始预训练特征融合。 Tip-Adapter [15] 利用从少样本训练集中收集的键值对来构建适配器,这被称为缓存模型。 CLIP-Adapter 中的线性层被缓存模型替换,使 Tip-Adapter 成为一种免训练方法,并且优于其他少样本分类方法。 在 Tip-Adapter 的基础上,使用随机梯度下降动态更新缓存模型中的键,进一步提高了 Tip-Adapter 的性能,并取得了最先进的 (SOTA) 结果。

3 方法

本节详细阐述了所提出的方法。 首先,我们简要回顾CLIP的零样本图像分类。 然后,我们分别详细描述IDEA和T-IDEA。 最后,我们介绍生成图像描述的过程。

3.1 重新审视CLIP的零样本图像分类

CLIP模型通过对比学习在大型图像-文本对数据集上进行训练。 它挖掘图像-文本对之间的语义关联,并使模型获得较高的泛化能力,在多个视觉下游任务中取得了最先进的结果(SOTA)。 CLIP采用零样本分类策略,其中测试图像与类别名称的文本信息进行检索,以找到最匹配的类别作为分类结果。 这确保了CLIP无需重新训练即可实现开放词汇分类。

具体来说,给定一个测试图像 𝐈 test ,我们将其输入到CLIP的视觉编码器中以获得相应的视觉特征 i test D × 1 ,其中 D 是视觉特征的维度。 公式 1 描述了这个过程。

然后,令 N 为类别数, S label 为类别名称的集合。 手动设计的提示模板(例如{object}的照片)用于为每个类别生成文本提示模板。 接下来,将文本提示输入CLIP的文本编码器以获得相应的特征 𝐓 class N × D ,如公式 2 所示。

最后,我们得到用于分类的输出 logits N × 1 ,如公式 3 所示。

其中 表示矩阵乘法,并且 𝐓 class i test 都在特征维度上进行了归一化。 CLIP 的分类结果是对应于 logits 最大值的索引。 为方便起见,我们将公式 3 中的 𝐓 class i test 称为零样本知识。

3.2 图像描述增强型 CLIP-Adapter


图2: IDEA 和 T-IDEA 的架构。 给定一个包含 K 样本和 N 类别的训练集,CLIP 对视觉和文本数据进行编码,分别得到 𝐈 train 𝐓 train 然后,我们将实例级相似度计算并转换为类别级相似度作为少样本知识。 此外,我们设计了一个可训练的投影器 𝐖 proj 和一个可学习的潜在空间 𝐄 bias 来提高性能。 最后,我们将少样本知识与原始零样本知识结合起来得到模型的 logits。

基于 CLIP 的零样本分类,我们提出了一种名为图像描述增强型 CLIP-Adapter (IDEA) 的新型适配器,其中我们探索了图像-文本对中的少样本知识来增强 CLIP。

首先,我们构建一个包含图像的视觉信息和文本描述的 K 样本 N 类别训练集。 然后,我们冻结 CLIP 的视觉和文本编码器的参数用于 PEFT。 公式 4 表明,训练集中的 𝗂𝗆𝖺𝗀𝖾 被送入视觉编码器以获得视觉特征 𝐈 train N K × D ,而训练集中的 𝗍𝖾𝗑𝗍 被送入文本编码器以获得文本特征 𝐓 train N K × D

随后,我们计算多模态相似度,如公式 LABEL:eq:sim_idea 所示。

其中 S i m I N K × 1 是测试图像与训练集图像之间的相似度, S i m T N K × 1 是测试图像与训练集文本描述之间的相似度。

IDEA计算测试图像与训练集中每一类 K 个样本之间的相似度,这被称为少样本知识,并有助于挖掘图像和文本之间细粒度的语义关联。 之前的研究 [1, 12] 表明,将文本信息融入视觉模型可以有效增强其逻辑推理能力。 因此,我们利用训练集中的视觉和文本信息来提升识别能力。

最后,通过结合零样本知识和少样本知识,我们得到输出 logits N × 1 ,如公式 6 所示:

其中 α [ 0 , 1 ] 是一个超参数,用于平衡视觉模态和文本模态之间的相似性,而 β ( 0 , ) 是一个超参数,用于权衡少样本知识和零样本知识。 激活函数 f ( x ) = exp ( θ ( x 1 ) ) 用于将相似度的值映射到区间[0,1]。 θ ( 0 , ) 控制激活函数的锐度,它动态地拉伸和压缩相似度的值,以便更好地将少样本知识融合到零样本知识中。 给定样本 𝐗 N K × 1 之间的多模态相似性,我们定义了一个函数 g ( 𝐗 ) = K reshape ( 𝐗 , N , K ) 来聚合样本之间的相似性,从而形成少样本知识。 g ( 𝐗 ) 𝐗 重塑为一个具有 N 行和 K 列的矩阵。 然后,我们对矩阵的列维度求和。 此操作用于将实例级相似度聚合为类别级相似度。 算法 1 显示了IDEA的过程。

IDEA的优势总结如下。 首先,IDEA利用图像对应的文本描述作为视觉信息的补充,从而提高了CLIP少样本图像分类的性能。 其次,IDEA结合零样本和少样本的知识,捕捉图像-文本对的细粒度语义关联,增强了多模态数据的融合。 最后,IDEA是一种针对CLIP的免训练方法,其性能可以与最先进的模型相媲美,甚至超越。

3.3 可训练图像描述增强型CLIP适配器

IDEA不需要使用随机梯度下降(SGD)来训练模型,并在少样本分类任务中展现出强大的识别性能。 即使如此,我们相信IDEA的性能还可以进一步提升。 因此,我们提出了一种可训练图像描述增强型CLIP适配器(T-IDEA)方法。

一方面,我们认为在计算公式 LABEL:eq:sim_idea 中的 𝐓 train i test 项时,视觉和文本信息之间存在固有的跨模态语义差距。 为了克服这个问题,我们设计了一个轻量级的投影层 𝐖 proj D × D 用于跨模态语义对齐,并利用残差连接进行模态融合。

另一方面,对于少样本图像分类任务,选择的 K 样本无法补充地覆盖训练集中的所有样本,这意味着 K 样本和所有样本之间存在语义偏差。 因此,我们设计了一个可训练的语义潜在空间 𝐄 bias N K × D 来校正训练集语义空间中的偏差。

因此,T-IDEA的logit公式在公式 7 中定义。

其中 𝐖 proj D × D 𝐄 bias N K × D 是轻量级组件。

3.4 图像描述生成

图3: 生成图像描述的流程。

据我们所知,现有的视觉数据集通常缺乏相应的图像描述,并且对这些数据集进行标注非常费力。 因此,我们采用Llama [16] ,一个多模态的大规模模型,为每张图像生成文本描述。 3 说明了生成图像描述的流程。 首先,我们为每个图像数据集定制文本提示以指导描述生成。 然后,我们清理原始数据以减少与任务无关的噪声(例如转义字符、特殊符号和markdown格式)。 最后,我们利用BART [38] 模型对文本描述进行摘要,并将文本长度压缩到少于77个符元,这是CLIP文本编码器的最大长度。

图4: Llama模型生成的图像描述示例。

4 显示了我们设计提示的方法以及一些生成的文本示例。 对于常见的视觉数据集(例如,ImageNet [39] ,Caltech101 [40] ),我们设计了通用的提示来描述图像内容。 我们首先提示模型给出图像的类别名称。 然后,我们指示模型从以下方面描述图像内容:形状、颜色、物体数量、纹理、位置和细节。 对于细粒度的图像数据集(例如Food101 [41] ,Oxford Pets [42] ),我们定制提示以生成特定领域的图像描述。 特别是对于Oxford Pets数据集,我们提示模型给出宠物的子类。 然后,我们要求模型生成关于宠物的毛发、颜色、眼睛、形状、耳朵、爪子、姿势和位置的图像描述。 4 显示生成的图像描述基本上是准确的,并且与图像内容一致。

虽然多模态研究越来越流行,但大规模图像文本对数据弥足珍贵且非常需要。 我们通过为每个图像生成文本描述来补充11个流行的图像数据集(例如,ImageNet [39] 、Caltech101 [40] 和Oxford pets [42] ),总共产生1,637,795个图像文本对。 我们将该数据集命名为IMD-11,并在互联网上发布该数据集供公众研究使用。

4 实验

在本节中,我们首先描述实验的基本设置和用于比较实验的基线模型。 接下来,我们对11个公共数据集上的比较实验结果进行定量和定性分析。 最后,我们对IDEA和T-IDEA进行了一些消融实验。

4.1 实验设置

我们选择11个流行的计算机视觉数据集进行比较实验,包括2个常见的图像分类数据集(ImageNet [39] 和Caltech101 [40] )和9个细粒度图像分类数据集(Food101 [41] 、FGVCAircraft [43] 、StandCars [44] 、UCF101 [45] 、Flowers102 [46] 、SUN397 [47] 、EuroSAT [48] 、DTD [49] 和OxfordPets [42] )。 所有模型都在1、2、4、8和16次样本设置下在训练集上进行训练。 为了公平比较,训练集、验证集和测试集的划分标准与CoOp [12] 、CLIP-Adapter [14] 和Tip-Adapter [15] 相同。

在数据预处理阶段,我们首先随机裁剪和缩放大小为 224 × 224 的图像。 然后我们随机翻转和归一化图像张量。 对于T-IDEA方法,我们设置 50 个时期来训练模型,批量大小为 256 ,并采用随机梯度下降法(SGD)以 5 × 10 4 的学习率来微调模型。

所有实验都在配备AMD EPYC 7642处理器、4个NVIDIA ® GeForce RTX 4090显卡、256GB内存、6TB固态硬盘(SSD)、8TB硬盘驱动器(HDD)和Ubuntu 22.04.3 LTS操作系统的服务器上进行。

我们将IDEA方法和T-IDEA与五个基线模型进行了比较,即零样本CLIP [1] 、CoOp [12] 、CLIP-Adapter [14] 、Tip-Adapter [15] 和Tip-Adapter-F [15] 所有比较数据均取自原始论文中公布的最佳结果。 为确保公平性,在对比实验中,我们的方法使用ResNet-50 [50] 作为视觉编码器,使用Transformer [37] 作为文本编码器,这与上述五个基线模型的配置相同。

4.2 性能比较与分析

在本节中,我们进行了实验,将IDEA和T-IDEA与5个基线模型在11个公开可用的图像数据集上进行了比较。

图5: 模型性能比较在11个数据集上的结果。 IDEA在无需额外训练的情况下取得了良好的性能。 T-IDEA在所有数据集上都取得了显著的SOTA性能。

5 (a)显示了每个模型在11个图像数据集上的平均性能。 可以看出,在1、2、4和8次样本设置下,IDEA的性能优于需要额外训练步骤的CoOp模型。 与同样无需训练的Tip-Adapter方法相比,IDEA在1、2、4、8和16次样本设置下的性能分别提高了0.63%、0.12%、0.59%、0.39%和0.5%。 这表明融合训练集中的多模态数据(视觉和文本特征)有利于提高模型的性能。 此外,T-IDEA的性能优于IDEA。 随着样本数量的增加,T-IDEA相对于IDEA的优势更加明显。 这种现象表明,设计额外的训练组件来微调模型以更好地适应数据集中的新特征至关重要。 值得注意的是,配备了两个可学习组件的T-IDEA在1、2、4、8和16次样本设置下,分别比Tip-Adapter-F高出0.86%、0.99%、0.82%、1.03%和0.65%,达到了最先进的性能。

5 (b)和(c)表明IDEA和T-IDEA方法在常用数据集上都取得了良好的性能。 值得注意的是,在Caltech数据集上,在8次样本训练设置下,IDEA比Tip-Adapter方法提高了0.47%,而T-IDEA比最先进的模型Tip-Adapter-F高出1.26%。 5 (d-l)显示IDEA和T-IDEA方法在大多数细粒度图像分类数据集上都达到了最先进的性能。 例如,在OxfordPets和Food101数据集上,IDEA在1次样本和2次样本设置下表现出与最先进模型相当的性能,即使IDEA方法没有额外的训练步骤。 这证实了IDEA的优势和优越性,尤其是在类别样本有限的情况下。 同时,T-IDEA在大多数细粒度图像数据集上都取得了最先进的性能。 例如,在 FGVCAircraft 数据集上,在 16 个镜头设置下,T-IDEA 的性能比 Tip-Adapter-F 提高了 2.97%,这是一个显着的提升。

此外,我们注意到我们的方法在一些特定领域的细粒度数据集上表现不佳。 在图 5 中,我们观察到,对于EuroSAT数据集,T-IDEA在8次、16次样本设置下与最先进方法相比改进较少。 鉴于EuroSAT数据集是一个遥感图像分类数据集,图像尺寸相对较小 64 × 64 ,由于分辨率低和内容抽象,难以用文本语言描述图像的内容信息。 我们推断,这可能是我们的方法在这个数据集上改进有限的一个重要原因。

4.3 消融研究

在本节中,我们在ImageNet数据集上对IDEA和T-IDEA进行了多次消融研究,在16次样本训练设置下,以验证每个组件的有效性。

4.3.1 超参数消融研究

Ablation study of Hyper-parameters
α 0 0.2 0.4 0.5 0.8 1
Accuracy(%) 59.68 61.36 62.32 62.58 62.11 61.63
β 0 1 2 2.5 2.75 3
Accuracy(%) 60.34 61.61 62.28 62.44 62.58 62.49
θ 0.5 1 1.5 2 3 3.5
Accuracy(%) 62.05 62.41 62.49 62.58 62.43 62.34
表1: IDEA三个超参数的影响。 粗体值表示最佳结果。

超参数 α 旨在平衡视觉相似性和图像-文本对的相似性,如公式 LABEL:eq:sim_idea 所示。 我们设定 β = 2.75 θ = 2 ,并将 α 的值从0变到1。







请到「今天看啥」查看全文