关注“
FightingCV
”公众号
回复“
AI
”即可获得超100G人工智能的
教程
大规模图像-文本预训练模型实现了零样本分类,并在不同数据分布下提供了一致的准确性。然而,这些模型在下游任务中通常需要微调优化,这会降低对于超出分布范围的数据的泛化能力,并需要大量的计算资源。论文提出新颖的
Robust Adapter
(
R-Adapter
),可以在微调零样本模型用于下游任务的同时解决这两个问题。该方法将轻量级模块集成到预训练模型中,并采用新颖的自我集成技术以提高超出分布范围的稳健性,并大幅减少存储开销。此外,论文提出了针对视觉-语言下游任务设计的
MPM-NCE
损失,确保多个图像-文本对的精确对齐和具有区分性的特征学习。
来源:晓飞的算法工程笔记 公众号
论文: Efficient and Versatile Robust Fine-Tuning of Zero-shot Models
-
论文地址:https://www.arxiv.org/abs/2408.05749
-
论文代码:http://cvlab.postech.ac.kr/research/R-Adapter
Introduction
大规模联合图像和文本数据预训练模型的出现在计算机视觉领域引起了范式转变。通过对大量图像-文本对的嵌入进行对齐,这些模型实现了零样本推断,并展现出在不同数据分布下广泛泛化的显著能力。尽管它们在零样本情境下表现出色,但它们无法与监督学习模型相媲美,需要进行微调以发挥其全部能力。然而,传统的全面微调会产生两个主要挑战:
1
)全面微调损害了模型对于超出分布范围(
OOD
)数据的泛化能力,而这对于数据变异性不可预测的实际应用至关重要。
2
)它需要大量的计算资源、内存和存储,而随着大规模预训练模型的不断增大,这是不切实际的。
最近,针对这些挑战提出了几种微调方法。稳健微调的目标是在微调零样本模型的同时保持对
OOD
的鲁棒性,而参数高效微调(
PEFT
)仅更新一小部分参数,同时保持预训练参数的冻结状态。然而,每种方法只解决其中一个挑战,同时在另一个挑战上仍然存在不足。如图
1
所示,现有的稳健微调方法仍然需要微调整个模型,导致训练代价高昂。此外,它们仅针对分类任务,因此通常仅训练图像编码器,从模型中排除了零样本推断能力。另一方面,与稳健微调相比,
PEFT
在分布偏移下的性能显著滞后。它们的关键缺点凸显了需要新的微调方法,同时解决稳健微调和
PEFT
分别应对的两个挑战。
本文提出了一种名为稳健适配器(
R-Adapter
)的新型微调方法,旨在提高
PEFT
的稳健性,并增强稳健微调的效率。在适配器微调方法的基础上向预训练模型添加额外的轻量级模块,
R-Adapter
引入了新颖的自我集成策略,以增强
OOD
的稳健性。
受到在权重空间中平均多个模型时观察到的稳健性增益的启发,通过一种独特的方式在单个模型内实现这种策略。这种方法在任务特定性能和针对分布偏移的稳健性之间取得了良好的平衡,同时显著降低了存储成本。具体而言,
R-Adapter
通过三种自我集成技术实现这一目标。它随机丢弃适配器模块,从而动态生成并集成不同
子网络
,以各种配置组合适配器和预训练层。此外,累积适配器权重以形成一个时间集成,捕捉整个学习过程中产生的所有模型。此外,通过重新缩放适配器的权重,并通过重新参数化将其整合到预训练层中,论文实现了在没有两个单独模型的情况下,在预训练和微调模型的权重之间实现无缝的线性插值。
此外,论文提出了一种名为
Multi-Positive Margin NCE
(
MPM-NCE
)损失函数,专为在视觉-语言下游任务上进行有效微调而设计。这些任务通常涉及复杂的关系,其中多个图像可以对应于相同的文本,反之亦然。与传统的对比损失(例如
InfoNCE
)不同,后者接受单一正样本对,并因此经常导致这些关系中的语义不匹配,
MPM-NCE
考虑了多个正样本对,从而更精确地对齐跨各种图像和文本对。此外,
MPM-NCE
引入了一个角度边距以惩罚负样本对,使模型能够学习对下游任务至关重要的高度区分的特征。因此,所提出的损失函数显著改善了任务特定性能,在
ID
和
OOD
环境下都带来了益处。
论文的方法在微调后实现了零样本推理,在图像分类任务之外扩展了其适用性范围,适用于广泛的应用领域。为了展示其多功能性,论文提出了一个新的用于稳健微调的评估基准,包括五个任务:三种情景下的图像分类任务、跨模态检索和开放词汇分割。大量实验证明,与现有的稳健微调和
PEFT
方法相比,论文的方法在分布转移条件下表现出卓越性能,同时使用的参数更少。
本文的主要贡献有四点:
-
提出了一个高效且多功能的稳健微调框架,融合了
PEFT
和稳健微调的优势,这是第一个兼具两者优势的方法。
-
提出了
R-Adapter
,采用自集成技术,借助单个带有适配器的模型实现权重空间集成。能够在减少存储成本的同时增强鲁棒性,因为不需要多个模型。
-
开发了适用于微调的
MPM-NCE
损失,利用多个正样本对和引入角度间隔,确保了多个图像-文本对的精确对齐和具有区分性的特征学习。
-
首次将稳健微调的基准拓展到图像分类之外的任务,包括跨模态检索和开放词汇分割,从而允许评估其广泛适用性。论文的方法在各种任务中取得了最先进的性能,仅微调了
13%
的
CLIP
编码器参数。
Proposed Method
Preliminary
CLIP
由两个编码器组成,分别用于从图像和文本中提取特征。每个编码器由一系列
Transformer
层组成,每个层包括多头注意力(
MHA
)、层归一化(
LN
)和前馈神经网络(
FFN
)。具体而言,第
层
Transformer
层的公式如下:
MHA
包括对查询、键和值进行
头自注意力操作,通过对输入进行独立的线性投影来实现,其公式为:
其中
表示拼接,
设为
。
,
,
和
是线性投影矩阵。
FFN
由两个线性层和一个非线性层组成:
其中
,
,
, 和
分别是线性投影的权重和偏置;
表示
GELU
函数。
CLIP
编码器被训练用于预测哪些文本描述与给定的一组图像匹配,反之亦然。这通过使用
InfoNCE
损失来进行对比学习来实现,该损失迫使图像嵌入和其对应的文本嵌入彼此靠近,并远离批次中的其他文本嵌入。设
和
分别是图像和文本的
CLIP
编码器。给定一个批次包含
个图像-文本对
,损失函数定义为:
其中
,
,
表示一个可学习的温度参数。
Problem Setup
论文的目标是在保留其固有的离群分布泛化能力的同时,高效地对视觉-语言预训练模型进行各种下游任务的微调。虽然大多数现有的鲁棒微调方法局限于分类任务,但论文将范围扩大到为各种下游任务,如图像分类、跨模态检索和开放词汇分割等,提供鲁棒微调模型。
给定一个图像-文本预训练模型,目标是使用一个面向目标下游任务的内分布(
ID
)训练数据集
对其进行适应,其中
表示一个图像,
是对应于该图像的文本描述。同时,旨在提高模型在一个离群分布(
OOD
)测试数据集
上的性能。内分布和离群分布数据集
和
分别从不同概率分布
和
中采样,当
时即为表现出分布转移。在分类任务中,
表示目标类的文本描述,通过从一组预定义模板中进行采样构建(例如,“一张{
class
}的照片”)。对于其他视觉-语言任务,
可能是与图像
相关联的标题之一。
Robust Adapter (R-Adapter)
为了实现高效且鲁棒的微调,论文引入了基于
PEFT
框架的
R-Adapter
。
PEFT
框架在微调少量附加的可学习参数的同时冻结预训练模型,但在训练中对该框架的朴素应用可能会导致对内分布数据的显著偏向(参见表
2
)。受到集成增强在各种分布下的泛化能力的启发,
R-Adapter
设计了三种新颖的自集成策略,以实现鲁棒微调而不在训练和推理期间增加计算负载。
R-Adapter
建立在适配器微调框架之上,在该框架中向预训练模型添加了轻量级模块。具体而言,
R-Adapter
中的适配器模块采用了
Houlsby
适配器的简化版本,去除了非线性层和偏置。该模块被构建为一个残差块,由以下权重矩阵组成:
其中,
表示预训练块的输出,
是论文适配器的权重矩阵。对于全样本学习,保持
的满秩结构以保留足够的容量。在少样本学习中,可以通过将
分解为低秩矩阵
的乘积来采用瓶颈结构,其中
,
,且秩
。这种分解避免了过参数化,并显著减少了参数数目和计算量。
在图像和文本编码器的每个
Transformer
层中部署适配器,放置在
MHA
(
Multi-Head Attention
)和
FFN
(
Feed-Forward Network
)层之后,如图
2
所示。
由于适配器之前没有非线性结构,可以通过将其与最接近的预训练层集成进行重参数化,从而在推理过程中消除适配器的额外计算开销。用
表示适配器之前的预训练层的权重,可以是来自
MHA
的
或者
FFN
中的
,相应的偏置
是
FFN
中的
。给定预训练层的输入
,那么重新参数化的过程如下进行:
其中,
是单位矩阵,
,
。
-
Dynamic Ensemble by Adapter Dropping
为了增强
R-Adapter
的
OOD
鲁棒性,加入适配器丢弃的动态集成技术。在训练过程中,适配器模块以以下方式被随机停用:
其中,
是从