专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

利用合成提示改进CLIP的零样本泛化能力

FightingCV · 公众号 · · 2025-01-18 09:00

正文

摘要

随着对CLIP等预训练视觉-语言模型兴趣的增长，最近的研究重点是如何将这些模型适应下游任务。尽管取得了令人鼓舞的结果，但大多数现有方法都需要所有类别的标注数据，这在现实应用中可能并不适用，因为存在长尾分布和齐普夫定律。例如，某些类别可能完全缺乏标注数据，例如新兴概念。为了解决这个问题，我们提出了一种即插即用的生成方法，称为 S ynt H es I zed P rompts ( SHIP )，以改进现有的微调方法。具体来说，我们遵循变分自动编码器引入一个生成器，该生成器通过将合成的提示和相应的类别名称输入到CLIP的文本编码器来重建视觉特征。通过这种方式，我们可以轻松地获得剩余仅包含标签的类别的合成特征。此后，我们通过结合标注特征和合成特征，使用现成的微调方法对CLIP进行微调。在基础到新颖的泛化、跨数据集迁移学习和广义零样本学习方面进行的大量实验证明了我们方法的优越性。代码可在https://github.com/mrflogs/SHIP获取。

1 引言

近年来，语言监督的视觉预训练模型受到了广泛关注。通过建立图像和自然语言之间的联系，这些模型展现出令人印象深刻的零样本能力和显著的迁移能力 [33, 17, 1, 24] ，展示了在学习开放世界概念方面的潜力。 CLIP [33] 是最成功的几个大型预训练视觉-语言模型之一。通过利用包含4亿对图像-文本的大型数据集，它学习分别从视觉编码器和语言编码器对齐视觉和文本表示。预训练后，CLIP [33] 只需提供类别名称即可执行零样本识别。分类权重是通过语言编码器通过提示 [25] 生成的。例如，我们可以采用“一张{类别}的照片”这样的提示模板作为文本编码器的输入，然后可以通过用实际类别名称替换“{类别}”来合成分类权重。生成的分类分数是测试图像与权重之间余弦相似度。

为了进一步提高CLIP的性能，之前的几项工作提出了使用可学习提示 [50, 49, 9, 27] 或适配器 [48, 13] 来微调预训练的CLIP以适应特定的下游任务。这些方法仅使用少量来自下游数据集的标记数据就取得了显著的改进，这清楚地证明了它们在数据效率方面的优越性。然而，这些方法的一个重大局限性是它们依赖于所有类别都可用数据，这在实际应用中可能不切实际。这个问题是由齐夫定律和长尾现象造成的，这使得收集稀有类别的（例如新物种或新兴概念）数据变得具有挑战性。结果，许多类别可能没有任何相关数据，这使得以前的方法在这种情况下要么无效 [39, 48] ，要么导致仅标签类别的性能 [50] 与零样本CLIP相比显著下降。为了解决这个局限性，我们的目标是开发一种微调方法，该方法能够有效地识别有和没有可用数据的类别，同时保持先前方法的优越数据效率。

在本文中，我们提出了一种即插即用的生成方法，称为 S ynt H es I zed P rompts（ SHIP ），以改进现有的微调方法。主要目标是训练一个生成模型，该模型可以通过提供类别名称来合成特征，这使我们能够为没有数据的类别生成特征。我们继续使用现成的（off-the-shelf）方法，使用原始标记特征和新合成的特征来微调CLIP。然而，一个主要障碍是生成模型通常需要大量数据进行训练，这与我们数据效率的目标相矛盾。我们建议使用变分自动编码器 [21] （VAE）作为框架，与需要对抗训练 [2, 14] 的模型相比，它更容易训练并且在低数据场景下更有效。此外，受先前提示学习方法 [50, 49, 9, 27] 的启发，我们训练生成器生成提示而不是视觉特征。然后，我们将这些提示和相应的类别名称输入冻结的 CLIP 语言编码器中以获得合成特征。由于 CLIP 已在一个大型数据集上进行了预训练，并且具有对齐的视觉和语言表示，我们相信预训练的语言编码器有助于生成更真实的特征。

总之，本文旨在解决下游任务中某些类别没有相关数据的问题，同时保持先前方法的优越数据效率。为实现此目标，我们提出了一种名为 SHIP 的新型生成方法，该方法可以仅基于类别名称为无数据的类别合成特征。值得注意的是，我们提出的生成方法与 CLIP 微调方法正交，并且可以通过利用合成数据来增强其性能。我们在基础到新泛化、跨数据集迁移学习和广义零样本学习方面进行了全面的实验，取得了最先进的性能。

2 相关工作

视觉-语言预训练。视觉-语言预训练模型 (VLM) 研究视觉和语言模态之间的关系。已经提出了各种方法通过自监督学习来建立这种联系，例如掩码语言模型 [20, 26] 、掩码区域预测 [37, 36] 和图像-文本匹配 [37, 20] 。最近，基于对比学习的 VLM 通过利用大规模的噪声图像-文本对展现了显著的性能。这些方法，包括 CLIP [33] 和 ALIGN [17] ，通过对比损失学习图像和文本的对齐表示，将匹配的图像-文本对的表示拉近，并将不匹配对的表示推远。基于自然语言监督，这些 VLM 获取可迁移的视觉表示，并在各种图像分类任务中展现出令人印象深刻的零样本性能。

VLM 的微调。受 NLP 中先前工作的启发，最近的研究重点是开发用于下游任务的 VLM 的高效微调方法。此类方法的一种是提示微调，这在几篇近期论文中已被探讨 [50, 27, 4] 。 CoOp [50] 提出了一种提示学习方法，该方法通过在少样本数据集上进行反向传播，在连续符元嵌入空间中优化一个与类别无关的提示模板。 ProDA [27] 试图学习一系列连续提示来捕捉变化的视觉表示。 PLOT [4] 提出应用最优传输来匹配与图像不同区域的可学习提示。另一种微调方法是适配器 [13, 48] 。 CLIP-Adapter [13] 提出在最后一个视觉层之后添加一个轻量级MLP，并通过残差连接将输出特征与原始零样本特征混合。 Tip-Adapter [48] 通过用线性层替换轻量级MLP进一步改进CLIP-Adapter [13] ，线性层的权重由标记的视觉嵌入组成，充当概念的视觉原型。这不仅继承了零样本CLIP [33] 的免训练优势，而且性能也与那些需要训练的方法相当。

虽然这些方法在后续数据集上取得了显著改进，但它们在微调时需要所有类别的的数据。当处理新的未见类别时，它们要么失效 [48] ，要么性能急剧下降 [50] 。然而，由于某些类别的稀有性，例如新的物种或概念，很难收集它们的数据。因此，许多类别可能没有任何相关数据。为了解决这个问题，以前的方法试图学习更鲁棒的提示。 CoCoOp [49] 通过学习以输入图像为条件的特定实例的连续提示来提高新类别的性能。利用图像信息，提示很容易转移到识别新类样本。 VPT [9] 提出通过变分推断学习特定实例提示的分布。在推理过程中，VPT 集成从分布中采样的多个提示进行分类。与之前的方法 [49, 9] 相反，我们提出为那些未见过的类别合成特征。拥有所有类别的特征后，我们可以利用现成的(off-the-shelf)方法来微调CLIP。

广义零样本学习。广义零样本学习 (GZSL) 是一个相关的研究领域，其目标与我们的工作类似。具体来说，GZSL 侧重于训练一个能够识别已见和未见物体类别的分类器，其中后者在训练集中不存在。为此，GZSL 利用辅助语义信息，例如专家标注的属性或文本描述 [29] ，用于已见和未见类别。基于嵌入的 GZSL 方法旨在通过将视觉特征映射到语义空间来学习视觉语义交互的视觉到语义的映射 [46, 45] 。然而，这些方法的一个主要缺点是它们偏向于已见类别，因为它们只从已见数据中学习。作为一种解决方案，已经引入了基于生成的 GZSL 方法来学习语义到视觉的映射，以生成未见类别的视觉特征 [42, 43, 23, 30] ，用于数据增强。目前，生成方法通常基于变分自动编码器 (VAE) [21, 43] 、生成对抗网络 (GAN) [42, 43, 23, 12] 和生成流 [34] 。尽管这些基于生成的方法取得了令人鼓舞的结果，但它们需要在一个大型已见数据集上进行训练以学习语义视觉映射，并需要对所有类别的专家标注属性或文本描述，这可能需要大量的人工劳动。在我们的工作中，我们旨在通过学习为新类别合成样本的方式来模仿 GZSL。然而，由于训练集中的标记数据有限，并且通过提示（例如“一张{类别}的照片”）为每个类别生成的语义向量比较粗糙，这些基于 GZSL 的生成方法无法为新类别合成有效的样本。

3 方法

图1：提出的模型架构建立在 VAE 框架之上，包含一个 VAE 编码器和一个生成器。在训练阶段，我们使用CLIP视觉编码器提取图像特征，并使用VAE编码器将其编码为潜在代码 z ，随后将其限制在一个先验分布中。之后，生成器利用编码信息重建输入特征。值得注意的是，引入了一种新颖的基于CLIP的生成器，它包含两个子网络：一个轻量级的MLP和一个冻结的CLIP文本编码器。 MLP将潜在代码 z 转换为局部偏差，随后将其添加到全局可学习的提示向量中以构建最终提示。然后，将提示与类别名称一起输入到冻结的文本编码器中以获得重建的特征。在生成阶段，我们从先验分布中采样潜在代码，然后将其与新的类别名称一起使用以合成相应的特征。最后，我们使用现成的基类和合成的新的类特征，使用离线方法微调CLIP。

3.1 背景

对比语言图像预训练，称为CLIP [33] ，是一种用于对齐图像及其对应标题的表示的方法，近年来受到了广泛关注。 CLIP包含两个编码器模块：一个视觉编码器 ℐ ( 𝒙 ) 和一个语言编码器 𝒯 ( t ) ，它们分别将图像和文本描述编码到一个共享的 d 维空间中。视觉编码器可以是ViT [10] 或ResNet [15] ，而语言编码器是Transformer [38] 。使用应用于大型配对图像和标题数据集的对比损失，这两个编码器联合训练。训练完成后，CLIP可用于下游任务的零样本分类。要执行 C 类图像分类，类别描述 { t c } c = 1 C 是通过提示生成的，例如“一张{class}的照片”。然后，输入图像 𝒙 的分类概率计算如下：

其中 τ 表示温度， cos ⁡ ( ⋅ , ⋅ ) 是余弦相似度函数， y 是目标类别。

3.2 合成提示

在本文中，我们的目标是在保持数据效率与先前方法相同的同时，提高CLIP在基础类别和新类别（即，有和无可用数据类别）上的性能。为实现此目标，提出了一种名为 S ynt H es I zed P rompts ( SHIP )的新型生成方法，该方法包含三个阶段。首先，我们遵循变分自动编码器引入一个生成器，该生成器通过将合成的提示和相应的类别名称输入到CLIP的语言编码器来重建视觉特征。随后，我们通过提供类别名称来获得新类别的合成特征。最后，我们将标记的基础类特征与合成的新的类特征相结合，并采用现有的微调方法，例如CoOp [50] 和Tip-Adapter [48] ，来微调CLIP，从而增强其在基础类和新类上的性能。

生成模型的架构如图 1 所示。为了保持数据效率，我们选择使用变分自动编码器（VAE） [21] 来训练我们的生成器，而不是生成对抗网络（GAN） [14] 。原因是使用有限的标记数据很难训练有效的GAN判别器 [19] 。如图 1 所示，VAE架构包含一个编码器 E ( x ) 和一个生成器 G ( z , c ) 。首先，我们利用固定的CLIP视觉编码器提取输入图像的特征，即 x = ℐ ( i m g ) 。随后，VAE编码器 E ( x ) 将特征 x 编码成潜在代码 z ，生成器 G ( z , c ) 使用潜在代码 z 和相应的类别名称 c 重建特征 x 。 E 和 G 的优化是通过如下等式给出的证据下界实现的：

其中 K L 表示Kullback-Leibler散度， p ( z | c ) 是假设为 𝒩 ( 0 , 1 ) 的先验分布， − log ⁡ G ( z , c ) 表示重建损失。

为了进一步利用CLIP的预训练知识，我们提出了一种基于CLIP的生成器。值得注意的是，预训练的CLIP已经学习了对齐的视觉和语言表示，允许我们从语言编码器 𝒯 重建输入特征。由于已经在大型数据集上进行了训练，因此从预训练语言模型 𝒯 获得的重建特征预计比从少样本基础数据集上从头训练的新生成器生成的特征质量更高。受先前提示学习方法 [50, 49, 27] 的启发，我们生成特定实例的提示，而不是直接生成特征。具体来说，给定潜在代码 z ，我们生成特定实例的提示如下：

其中局部偏差 𝒓 通过一个两层全连接网络（即 𝒓 = M L P ( z ) ）获得，该网络将潜在代码 z 嵌入到符元嵌入空间中，而 L 是提示的长度。如公式( 3 )所示，我们的提示由两部分组成：一组全局固定的可学习提示 { 𝒑 i , i = 1 , 2 , … , L } （随机初始化），捕捉输入特征的全局信息；以及一个局部偏差 𝒓 ，它将输入特征的特定实例信息编码到提示中。通过组合提示和对应类名对应的符元嵌入，我们获得重建特征如下：

其中 𝒯 是冻结的语言编码器， 𝒆 𝒄 是对应类名的符元嵌入。

在训练阶段，我们保持CLIP冻结，只优化编码器 E 、轻量级网络 M L P 和全局提示 𝒑 = [ 𝒑 𝟏 , 𝒑 𝟐 , … , 𝒑 𝑳 ] 。

3.3 微调CLIP

训练阶段结束后，生成器用于为新类别合成特征。具体来说，给定新类别的类名 c 和从先验分布中采样的噪声 z ，利用生成器 G ( z , c ) 生成相应的特征。对每个新类别重复此过程，从而产生一个新的合成数据集。与标记的基本数据集结合后，即可获得所有类别的完整数据集。因此，可以使用现成的CLIP微调方法 [50, 13, 48, 4] ，与之前的对应方法相比，这有望在新的类别上取得更好的性能。

4 实验

4.1 设置

我们针对三个不同的任务评估了我们的方法：从基础到新颖的泛化、跨数据集迁移和广义零样本分类。对于从基础到新颖的泛化和跨数据集迁移任务，我们遵循与CoCoOp [49] 相同的实验设置。它使用了总共11个不同的图像分类数据集，即：用于通用目标识别的ImageNet [8] 和Caltech101 [11] ；用于细粒度图像识别的OxfordPets [32] 、StanfordCars [22] 、Flowers102 [31] 、Food101 [3] 和FGVCAircraft [28] ；用于卫星图像分类的EuroSAT [16] ；用于动作分类的UCF101 [35] ；用于纹理分类的DTD [7] ；以及用于场景识别的SUN397 [44] 。对于广义零样本分类任务，我们遵循与 [41] 相同的设置，并在三个标准的零样本识别数据集上进行实验：Caltech-UCSD-Birds [40] (CUB)、Oxford Flowers [31] (FLO)和Animals with Attributes2 [41] (AWA2)，分别包含200、102和50个类别。为确保公平比较，我们使用与 [41] 中提出的相同的数据分割和评估协议。
实现细节。我们提出的方法包含三个子网络：一个VAE编码器、一个轻量级MLP和一个预训练的CLIP。 VAE编码器和MLP实现为具有4096个隐藏单元和ReLU激活函数的两层全连接网络。我们采用ViT-B/16 [10] 和Transformer [38] 作为CLIP的视觉和语言编码器，它们使用CLIP的预训练权重进行初始化，并在训练过程中保持冻结状态。潜在代码 z 的维度设置为等于符元嵌入的维度。我们将可学习的全局上下文向量的长度固定为4，并用高斯噪声对其进行初始化。特征被归一化到单位球面上，正如CLIP [33] 中提出的那样。我们使用MSE作为VAE的重建损失。所有网络都使用AdamW优化器进行训练，学习率为0.001。在CLIP的微调过程中，由于我们使用了现成的方案，我们遵循其论文中提出的相同设置 [49, 50, 48, 13] 。我们随机合成一批新的类别特征，并将它们与原始批次组合以形成新的批次进行训练。我们在单个NVIDIA GeForce RTX 3090上进行所有实验，但ImageNet数据集的实验是在NVIDIA A100上进行的。

表1：基于已知类别的泛化能力。我们提出的模型在少样本训练集（基础类别）上进行训练，然后在基础类别和新类别上进行评估。 +SHIP 表示我们将我们的方法添加到之前的现成方法中。由于 Tip-Adapter [48] 无法在新类别上进行测试，因此其结果未包含在表中。基础类别和新类别的平均准确率分别用 Base 和 New 表示，它们的调和平均数表示为 H 。最佳结果以粗体显示。

	Average			ImageNet [8]			Caltech101 [11]			OxfordPets [32]
	Base	New	H	Base	New	H	Base	New	H	Base	New	H
CLIP [33]	69.34	74.22	71.70	72.43	68.14	70.22	96.84	94.00	95.40	91.17	97.26	94.12
CoOp [50]	82.69	63.22	71.66	76.47	67.88	71.92	98.00	89.81	93.73	93.67	95.29	94.47
CoCoOp [49]	80.47	71.69	75.83	75.98	70.43	73.10	97.96	93.81	95.84	95.20	97.69	96.43
ProDA [27]	81.56	72.30	76.65	75.40	70.23	72.72	98.27	93.23	95.68	95.43	97.83	96.62
CLIP-Adapter [27]	83.05	65.20	73.05	75.74	68.21	71.78	98.13	92.19	95.39	91.55	90.10	90.82
CoOp + VPT [9]	71.98	74.76	73.34	74.73	70.60	72.60	95.47	93.80	94.62	90.77	97.83	94.16
CoOp + SHIP	80.03	73.69	76.73	75.87	69.95	72.79	97.55	95.20	96.36	95.37	97.87	96.61
CLIP-Adapter + SHIP	83.14	67.77	74.67	76.00	69.32	72.51	97.68	95.09	96.37	92.19	93.85	93.01
Tip-Adapter + SHIP	83.80	76.42	79.94	77.53	70.26	73.71	98.32	94.43	96.34	94.95	97.09	96.01

	StanfordCars [22]			Flowers102 [31]			Food101 [3]			FGVCAircraft [28]
	Base	New	H	Base	New	H	Base	New	H	Base	New	H
CLIP [33]	63.37	74.89	68.65	72.08	77.80	74.83	90.10	91.22	90.66	27.19	36.29	31.09
CoOp [50]	78.12	60.40	68.13	97.60	59.67	74.06	88.33	82.26	85.19	40.44	22.30	28.75
CoCoOp [49]	70.49	73.59	72.01	94.87	71.75	81.71	90.70	91.29	90.99	33.41	23.71	27.74
ProDA [27]	74.70	71.20	72.91	97.70	68.68	80.66	90.30	88.57	89.43	36.90	34.13	35.46
CLIP-Adapter [13]	79.16	59.49	67.93	98.29	64.68	78.02	88.24	88.33	88.29	42.14	25.67	31.91
CoOp + VPT [9]	65.27	75.97	70.21	72.97	75.90	74.40	90.37	91.67	91.01	29.57	33.80	31.54
CoOp + SHIP	68.57	73.90	71.14	94.02	74.40	83.06	90.54	91.03	90.78	34.27	32.33	33.28
CLIP-Adapter + SHIP	78.51	62.52	69.61	98.20	65.89	78.86	88.63	87.07	87.84	42.26	30.05	35.13
Tip-Adapter + SHIP	79.91	74.62	77.18	95.35	77.87	85.73	90.63	91.51	91.07	42.62	35.93	38.99

	SUN397 [44]			DTD [7]			EuroSAT [16]			UCF101 [35]
	Base	New	H	Base	New	H	Base	New	H	Base	New	H
CLIP [33]	69.36	75.35	72.23	53.24	59.90	56.37	56.48	64.05	60.03	70.53	77.50	73.85
CoOp [50]	80.60	65.89	72.51	79.44	41.18	54.24	92.19	54.74	68.69	84.69	56.05	67.46
CoCoOp [49]	79.74	76.86	78.27	77.01	56.00	64.85	87.49	60.04	71.21	82.33	73.45	77.64
ProDA [27]	78.67	76.93	77.79	80.67	56.48	66.44	83.90	66.00	73.88	85.23	71.97	78.04
CLIP-Adapter [13]	79.44	66.81	72.58	81.94	39.49	53.30	93.45	54.41	68.78	85.42	67.77	75.58
CoOp + VPT [9]	73.77	77.90	75.77	57.67	58.70	58.18	67.97	71.63	69.75	73.23	74.63	73.92
CoOp + SHIP	79.54	75.27	77.35	74.88	56.88	64.65	88.62	66.87	76.22	81.08	76.85	78.91
CLIP-Adapter + SHIP	79.86	66.52	72.58	81.60	46.38	59.14	93.05	57.15	70.81	86.61	71.61	78.40
Tip-Adapter + SHIP	81.32	77.64	79.43	81.83	61.47	70.21	93.38	81.67	87.13	85.99	78.10	81.85

4.2 结果

4.2.1 基于已知类别的泛化能力

设置。遵循 CoCoOp [49] ，我们将每个数据集划分为两个不相交的子集：基础类别和新类别。随后，我们从基础类别中随机抽取一个少样本训练集，同时保留原始测试集用于评估。具体来说，我们仅使用每个类别 16 个样本在基础类别上进行训练，并在基础类别和新类别上评估训练后的模型。为了评估模型的性能，我们计算了基础类别和新类别的平均准确率及其调和平均数 [49] ( H = 2 × b a s e × n e w / ( b a s e + n e w ) )。

结果。我们选择 CLIP [33] 、CoOp [50] 、CoCoOp [49] 、CLIP-Adapter [13] 、Tip-Adapter [48] 、VPT [9] 和 ProDA [27] 作为我们的基线。由于 Tip-Adapter [48] 无法在新类别上进行测试，因此其结果未包含在表中。表 1 的结果表明，之前的微调方法显著降低了CLIP在新类别上的性能。具体来说，CoOp [50] 在11个数据集上平均降低了新类别的准确率11%。 Tip-Adapter [48] 的情况更糟，因为它无法识别训练集之外的新类别。值得注意的是，除了VPT [9] 之外，所有以前的方法都损害了CLIP在新类别上的性能。然而，VPT [9] 通过将基础类别的准确率降低10.7%来实现这一点。

如表 1 所示，我们将我们的生成式提示调优方法添加到三个基线方法中：CoOp [50] 、CLIP-Adapter [13] 和Tip-Adapter [48] 。通过添加我们的方法，CoOp + SHIP在新类别和调和平均值上的性能分别比CoOp [50] 提高了10.47%和5.07%，而只牺牲了基础类别的2.66%。将生成式提示调优方法整合到CLIP-Adapter [13] 中，导致新类别和调和平均值的性能分别提高了2.57%和1.62%，而不会影响基础类别的性能。值得注意的是，使用我们提出的生成式提示调优方法增强Tip-Adapter [48] ，不仅扩展了其对新类别的识别能力，而且与所有基线方法相比，也取得了几乎最佳的结果。具体来说，与零样本CLIP相比，Tip-Adapter + SHIP在所有数据集上的基础类别、新类别和调和平均值的平均改进率分别为14.46%、2.20%和8.24%。此外，除了Caltech101 [11] 和OxfordPets [32] （ > 95 % 其性能已经达到很高水平，因此限制了改进的潜力）之外，它在11个数据集中的9个数据集上获得了最高的调和平均值。

表2：跨数据集迁移学习。这些方法在一个源数据集（ImageNet）上进行训练，随后在目标数据集上进行评估。我们报告目标数据集的平均准确率。为了量化我们方法的性能增益，我们计算使用我们的方法( C o O p + S H I P )获得的结果与基线方法( C o O p )获得的结果之间的差值。

Method	Caltech101 [11]	OxfordPets [32]	StanfordCars [22]	Flowers102 [31]	Food101 [3]	FGVC [28]	SUN397 [44]	DTD [7]	EuroSAT [16]	UCF101 [35]	Average
CLIP [33]	92.94	89.21	65.32	71.34	86.06	24.72	62.50	44.39	47.60	66.75	65.08
CoOp [50]	93.70	89.14	64.51	68.71	85.30	18.47	64.15	41.92	46.39	66.55	63.88
CoOp + SHIP	94.04	90.38	65.55	69.67	86.40	21.90	66.62	45.69	48.17	68.52	65.69
Δ	+0.34	+1.24	+1.04	+0.96	+1.10	+3.43	+2.47	+3.77	+1.78	+1.97	+1.81

4.2.2 跨数据集迁移学习

设置。遵循CoCoOp [49] ，我们对我们方法的跨数据集迁移性能进行了评估。具体来说，我们在源数据集（ImageNet [8] ）上训练后，检查了我们的方法在十个不同的目标数据集上的有效性。为了模拟更真实的场景，我们在16-shot ImageNet上训练我们的生成模型和CoOp [50] ，利用所有1000个可用类别。随后，使用生成模型，我们为目标数据集中的所有类别生成特征，并使用合成数据微调CoOp [50] 。为了公平比较，我们报告了这些数据集的平均准确率。

结果。我们报告了在十个目标数据集上，提出的CoOp + SHIP与CoOp [50] 和CLIP [33] 相比的性能。结果如表 2 所示，改进范围为0.34%到3.77%，平均改进为1.81%。值得注意的是，CoOp + SHIP在十个数据集中的八个数据集上都优于基线，例外的是Flowers102 [31] 和FGVCAircraft [28] 数据集。观察到这种情况的原因是Flowers102 [31] 和FGVCAircraft [28] 是细粒度数据集，这对生成器合成分布内和非平凡特征提出了挑战。

表3：广义零样本学习。模型在已见类数据上进行训练，并在已见和未见测试数据集的混合数据集上进行评估。我们在三个数据集上进行评估：CUB [40] ，AWA2 [41] 和FLO [31] 。结果以看不见和可见类别的平均 top-1 准确率及其调和平均数 (H) 来报告。

Method		CUB [40]			AWA2 [41]			FLO [31]
Method		Unseen	Seen	H	Unseen	Seen	H	Unseen	Seen	H
Resnet-101	f-CLSWGAN [42]	3.7	57.7	49.7	57.9	61.4	59.6	59.0	73.8	65.6
	Cycle-WGAN [12]	47.9	59.3	53.0	59.6	63.4	59.8	61.6	69.2	65.2
	LisGAN [23]	46.5	57.9	51.6	52.6	76.3	62.3	57.7	83.8	68.3
	TCN [18]	52.6	52.0	52.3	61.2	65.8	63.4	-	-	-
	f-VAEGAN [43]	48.4	60.1	53.6	57.6	70.6	63.5	56.8	74.9	64.6
	TF-VAEGAN [30]	52.8	64.7	58.1	59.8	75.1	66.6	62.5	84.1	71.7
	GCM-CF [47]	61.0