一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜! |
对比语言图像预训练 (CLIP) 已经受到了广泛关注,因为它学习到的表征可以很好地迁移到各种下游任务中。 在 CLIP 模型的训练过程中,InfoNCE 目标函数对齐正样本图像-文本对,并分离负样本对。 我们展示了在此过程中潜在的表征分组效应:InfoNCE 目标函数通过随机出现的模态内锚点间接地将语义相似的表征分组在一起。 基于此理解,本文介绍了 原型 对比 语言 图像 预训练 (ProtoCLIP) 来增强这种分组,提高其效率并增强其对模态差距的鲁棒性。 具体来说,ProtoCLIP 在图像和文本空间之间建立了原型级别的判别,有效地迁移了更高层次的结构知识。 此外,提出了 原型 反向 翻译 (PBT) 来将表征分组与表征对齐解耦,从而在较大的模态差距下有效学习有意义的表征。 PBT 还使我们能够引入具有更丰富先验语言知识的额外外部教师。 ProtoCLIP 使用在线片段训练策略进行训练,这使得它可以扩展到无限量的数据。 我们在 Conceptual Captions 数据集上训练了我们的 ProtoCLIP,并实现了 +5.81% 的 ImageNet 线性探测改进和 +2.01% 的 ImageNet 零样本分类改进。 在更大的 YFCC-15M 数据集上,ProtoCLIP 在训练时间减少 33% 的情况下与 CLIP 的性能相匹配。
视觉语言预训练,对比学习,自监督学习,多模态表征学习,K 均值聚类
对比语言图像预训练 (CLIP) [1] 在从互联网收集的大规模图像-文本对中学习表征方面取得了令人印象深刻的性能。 它在预训练过程中优化了信息噪声对比估计 (InfoNCE) 目标 [2] ,但这种简单的目标如何得出有意义的图像-文本表示尚未得到充分研究。 直观地说,InfoNCE 目标创建了一个联合表示空间,其中成对的图像-文本表示被推近,不成对的表示被拉远。 此属性可称为 表示对齐 。 然而,仅满足这一点不足以获得完美的下游性能。 例如,图像-文本表示可以完美对齐 [3] ,同时随机分布。 在这种情况下,InfoNCE 目标仍然可以达到最小值,但下游性能会很差 [4] 。
这种矛盾促使我们寻求对 CLIP 学习过程超越表示对齐的新理解。 我们发现最近的“增强重叠” [4] 理论对此特别有启发意义。 如图 1 (a) 所示,在对比视觉预训练(例如,SimCLR [5] )中,会随机应用积极的图像增强以生成不同的视图。 “增强重叠” [4] 理论表明,在这个过程中会出现难以区分的视图对(例如,两辆不同汽车的车轮,用绿色虚线框标注)。 当 InfoNCE 目标将不同的视图对齐在一起时,这些重叠的增强将把类内样本组合在一起(如绿色箭头所示)。 通过将不同的模态视为不同的视图,我们可以自然地将上述理论扩展到多模态设置。 如图 1 (b) 所示,现在图像-文本对的内在联系与图像增强起着类似的作用。 模态内部紧密配对(绿色虚线框标注)将会出现,并作为“锚点”来对另一模态中的对应表示进行分组。 例如,强大的视觉特征(例如,从不同角度识别猫)可以通过文本标题对中“猫”一词的共现来学习。
InfoNCE 的这种 表示分组 已被证明是有效的,但我们新的“锚点分组”理解揭示了它的两个主要弱点。 首先 ,分组是以一种 间接 的方式进行的,锚点很容易被不成熟的另一模态的“反应”拉开。 当图 1 (b)中的文本锚点将两张猫的图像推到一起(即,如预期的那样学习鲁棒的视觉表示,如图 1 (c)中的绿色箭头所示)时,这些不成熟的图像表示之间的较大距离会将文本锚点分开(例如,学习区分“图片”和“图像”这两个词,如图 1 (c)中的红色箭头所示)。 这种“反应”导致有效的锚点数减少,并产生较少的分组表示。 其次 ,随着模态差距的增大,锚点变得信息量减少。 模态差距 [6, 7] 定义为图像和文本空间中平均表示之间的范围。 如图 1 (d)所示,当两个表示空间没有整体对齐时,InfoNCE 目标将主要关注于对齐它们以最小化模态差距,而不是通过锚点分组来学习有意义的表示,因为较大的差距会淹没每个模态内的关系信息。 知识蒸馏领域 [8] 中已经很好地探讨了类似的问题,研究人员发现“绝对教师”对于表示空间转换(模态差距的单模态版本)并不鲁棒,并且会产生次优性能 [9] 。 不幸的是,在 CLIP 训练开始时,由于 CLIP 的两个编码器的独立初始化以及非线性深度神经网络固有的“锥形效应” [6] ,极有可能出现较大的模态差距。
我们提出了 Proto 型 C ontrastive L anguage I mage P retraining (ProtoCLIP),它通过在图像文本空间上构建和动态更新原型,将实例级判别提升到原型级判别。 如图 2 所示,分配给同一原型的样本具有共享的语义,我们使用这些原型来 直接 监督另一模态。 这将带来更丰富的监督信号和更有效的表示分组。 原型监督相对更稳定,因为这些原型没有被拉开的风险。
对于模态差距,我们进一步引入了一种简单而有效的 P rototype B ack T ranslation (PBT) 技术,以将表示分组与表示对齐解耦。 PBT 计算分配给共享原型的样本的模态内质心,然后将这些表示分组到质心。 使用 PBT,表示对齐不再是有效学习表示分组的先决条件。 基于从未对齐空间学习表示的能力,我们可以进一步引入具有更丰富先验知识的外部教师(例如,预训练的 RoBERTa [10] )。
此外,我们提出了对以前基于聚类的预训练方法的两个改进。 首先 ,DeepCluster [11, 12] 、SeLa [13] 、PCL [14] 、XDC [15] 、SeLaVi [16] 和 MCN [17] 在每个训练时期或几个连续的时期后更新聚类。 这种训练策略在中等规模的 ImageNet [18] 上可以很好地工作,但由于聚类更新频率低,因此无法扩展到更大的数据集(例如,YFCC [19] )。 为了更有效地训练 ProtoCLIP,我们设计了一种在线情景训练策略,这使得 ProtoCLIP 的训练可以扩展到无限量的数据。 其次 ,以前的工作 [11, 13, 15, 16, 14, 20] 学习单热伪标签作为硬目标,这忽略了聚类之间的结构关系。 例如,虽然“猫”和“虎”样本可能属于不同的聚类,但它们之间的距离应该比“猫”和“车”之间的距离更近。 为此,我们使用 softmax 将硬聚类分配转换为概率分数,以有效地转移这种关系知识。 总体而言,我们在本文中的主要贡献总结如下:
•
我们提出了具有原型级别判别的 ProtoCLIP,它能够在大型视觉语言预训练中更有效地进行表示分组。 原型充当稳定的锚点,将语义相似的样本的表示分组在一起。
•
我们设计了PBT将跨模态原型转换为模内质心。 PBT使ProtoCLIP能够学习未对齐空间之间的有意义的表示。 通过PBT,我们进一步引入了预训练的RoBERTa作为外部教师,以获得更丰富的监督。
•
我们对之前的基于聚类的预训练方法提出了两项改进:1) 一种在线情景训练策略,可以提高聚类更新频率;2) 使用基于概率的软目标,可以转移结构关系知识。
•
Conceptual Captions 3M的实验结果表明,在ImagNet线性探测和零样本分类方面,ProtoCLIP分别比CLIP提高了+5.81%和+2.01%。 在更大的YFCC数据集上,ProtoCLIP以33%的训练时间成本匹配了CLIP的性能。 代码可在https://github.com/megvii-research/protoclip获取。
最近的研究利用从大规模网络爬取的图像-文本数据中学习多模态表示,并显示出令人鼓舞的结果。 训练数据的数量可以扩展到数亿甚至数十亿个样本,这提供了强大的正则化作用,可以防止过拟合,并使模型能够学习开放词汇的视觉概念。 VLP模型可以分为单流和双流:
单流模型 [21, 22, 23, 24, 25] 基于注意力机制的优势 [26] 融合图像和文本,擅长多模态融合和理解,在视觉问答(VQA)和图像字幕等多模态高级任务中取得了令人印象深刻的性能。 不幸的是,单流模型的可迁移性较弱,因为它们没有可以迁移到单模态任务的独立编码器。
双流模型 建立了两个独立的编码器来对齐视觉和文本表示。 尽管该方法非常简单,但开创性工作 [1] 在结合海量训练数据和大型视觉Transformer [27] 时,取得了显著的成功。 一些后续工作从表示对齐的角度改进了CLIP。 例如,FILIP [28] 引入了更细粒度的表示对齐来增强多模态交互。 CLOOB [29] 引入了Hopfield网络来改进特征关联和共现的学习。 最近的研究重点是提高学习效率,因为CLIP训练成本很高。 为了提高学习效率,EfficientCLIP [30] 和SLIP [31] 分别将BERT [32] 风格和SimCLR [5] 风格的单模态自监督与CLIP结合。 DeCLIP [33] 进一步整合了多视图监督和最近邻监督。 RemoteCLIP [34] 将CLIP应用于遥感领域。
自监督学习(SSL) [35] 旨在无需人工监督的情况下学习有意义的表示。 早期SSL工作重点是探索预训练任务 [36] 。 在SimCLR [5] 证明了实例判别任务的有效性之后,对比学习成为主流。 SimCLR对齐不同数据增强的表示,这会创建 [4] 中所述的增强重叠,从而将类内样本分组在一起。 不幸的是,SimCLR依赖于极大的批量大小才能获得足够的负样本。 为解决这个问题,MoCo [37] 引入了动量对比,而BYOL [38] 和SimSiam [39] 则表明,无需负样本即可学习表示。 尽管这些工作有效地改进了自监督学习(SSL)学习的表示,但它们都存在一个根本性的弱点,即模型仅被鼓励学习增强不变的表示,而忽略了更高层次的语义关系。 基于最近邻的方法,例如NNCLR [40] 和MYOL [41] ,引入了更丰富的监督信号,但正样本对的方差仍然有限。
自监督学习中一个很有前景的研究方向是基于聚类的方法。 DeepCluster [11] 和SeLa [13] 使用 K -Means或Sinkhorn Knopp算法分配伪标签,然后使用这些标签来监督模型训练。 SwAv [12] 对比了同一图像不同增强之间的聚类分配。 SwAV的聚类以在线方式进行,但它强制要求每个聚类的尺寸相等。 PCL [14] 和SCCL [20] 将聚类级对比与实例级对比相结合,并分别证明了其在图像SSL和文本SSL中的有效性。 在原型图对比学习(PGCL) [42] 中,引入了原型级对比学习用于图数据的SSL。 在 [43] 中,提出了元原型学习以改进少样本图像识别。
基于聚类的多模态数据学习是一个新兴课题。 XDC [15] 和SeLaVi [16] 分别将DeepCluster [11] 和SeLa扩展到音频-视觉预训练 [13] 。 XDC [15] 还对不同类型的监督(即单模态与多模态融合与跨模态)进行了广泛的比较。 他们发现所有这些方法都是有效的,并且当模型纯粹由相反的模态监督时,学习效果最佳。 受XDC启发,ProtoCLIP也以跨模态的方式创建跨模态监督。 我们通过实验证明,基于多模态融合的监督(即CDC [15] )会导致VLP性能显著下降。 初始随机文本表示的密度远高于图像表示的密度,这使得它主导伪标签生成,并且无法从图像表示中学习有用的知识。
ProtoCLIP与XDC [15] 有一些相似之处,因为它们都利用相反模态中的聚类作为监督。 然而,ProtoCLIP的目标是VLP,而不是仅需要表示分组的音频-视觉预训练——在VLP场景中,对于零样本分类和跨模态检索,也应该考虑表示对齐。 此外,与XDC的纯VLP版本相比,ProtoCLIP包含几个新颖的设计,包括PBT、情景训练、可学习温度和软目标的使用。
让我们首先回顾一下原始CLIP
[1]
使用的InfoNCE目标。
CLIP使用一个大型图像文本数据集
表示对齐
是指成对图像和文本样本
表示分组 意味着语义相似的样本的表示被分组在一起,而不相似的样本的表示应该被分开。 完美的表示分组产生了强大的线性分类性能。
在同时满足完美的表示对齐和表示分组的同时,结合包含足够开放集概念的大型数据集,模型可以实现强大的零样本分类性能。 为实现此目标,CLIP 在每个批次中创建一个实例判别任务,并优化以下双向 InfoNCE 目标 [2] 以最大化配对图像和文本之间的互信息 [44] 。
其中,
ProtoCLIP 架构的示意图如图
3
所示。
为了获取原型,我们分别在
我们采用
K
均值聚类,因为它简单且可扩展。
此处也可以使用其他聚类方法。
具体来说,我们找到最小化以下
K
均值目标的原型
其中
在公式
4
中,
公式
5
中的分数是通过测量“真实”原型
我们在图
4
(a)和(b)中比较了
模态差异问题的核心原因是
1.
为
2.
计算
这里,
PBT能够在未对齐的表示空间之间进行知识转移,因为学生表示直接分组到其模态内的质心,而不是被推向其跨模态原型。
我们注意到,
由于表示分组与表示对齐解耦,我们现在可以集成多个教师来指导学生表示的学习。
例如,除了图像和文本空间之间最初的相互知识转移外,我们还可以进一步引入外部教师编码器
其中
以前基于聚类的
[11, 13, 14, 15, 16, 17]
方法在整个训练 epoch 之后更新聚类。
这种方法在中等规模的 ImageNet
[18]
数据集上效果很好,因为模型可以训练数百个 epoch,从而导致数百次聚类更新。
但是,CLIP 通常训练的 epoch 数量要少得多(例如,32
[47]
),这使得 epoch 级的更新频率不足。
我们提出了一种
集成训练
策略。
集成
是通过从整个数据集中随机选择
遵循CLIP
[1]
,我们使用改进的ResNet-50骨干网络作为图像编码器,与原始ResNet-50
[48, Li2022Survey]
相比,它有三个不同之处:1)使用三个3
ProtoCLIP是在基于PyTorch的OpenCLIP
[51]
代码库上实现的。
我们采用自动混合精度
[52]
来降低训练成本。
与CLIP
[1]
相同,我们使用带有解耦权重衰减正则化的Adam优化器
[53]
[54]
。
梯度裁剪的最大范数为1e5,以防止模型崩溃。
可学习温度 (
我们采用 Faiss
[57]
实现的
K
-Means 进行聚类。
我们将每个 episode 中 200,000 个样本的 128 维投影表示(即
Section | Hyperparameter | Value |
Episodic Training | Batch size | 512 |
Episode size | 200,000 | |
Warm-up Episodes | 40 | |
Prototype Construction | Number of clusters in K -Means | 20,000 |
K -means Iterations | 20 | |
Optimization | Optimizer | Adam |
Adam
|
0.9, 0.999, 1e-8 | |
Learning Rate | 5e-4, cosine decay | |
Weight decay | 0.5 | |
Maximum gradient norm | 1e5 | |
Model Architectures | Image Encoder | ResNet-50/ResNet-101 |
Image Resolution |
224
|
|
Text Encoder | Transformer | |
Text vocabulary size | 49408 | |
Initial and maximum temperature (
|
0.07, 100 | |
Representation dimension (
|
1024 | |
Projected Representation dimension (
|
128 | |
External Teacher |
|
|
|
|
[58] 它是一个从网络收集的高质量图像文本数据集,包含3,318,333个样本对。 该数据集于2018年由谷歌公开发布 2 。 不幸的是,由于图像链接过期,可访问的图像数量持续下降。 视觉语言预训练领域的一些最新工作 [29, 33, 51] 也指出了这个问题。 在这项工作中,由于我们只能收集到2,643,718张图像,我们从中随机抽取了2,500,000个子集(完整CC3M的75%)来训练我们的ProtoCLIP。 考虑到概念字幕中图像链接的可访问性下降,我们呼吁在未来的基准测试中使用此数据集大小(250万),以提高可比性。
它通过过滤YFCC100M [19] 来创建,过滤条件是包含英文自然语言描述和/或标题的图像。 我们使用了OpenAI [1] 过滤后的“YFCC15M-v1”。 由于链接中断,我们从总共1500万个样本中获得了大约1400万个样本,并使用其中的14,000,000个样本训练ProtoCLIP。
近期视觉语言预训练(VLP) [31, 33, 28] 方面的进展表明,应用随机数据增强可能是有益的。 然而,我们发现图像自监督学习(SSL)中常用的数据增强策略在VLP场景中过于激进。 如图 5 所示,标准 SimCLR [5] 增强在应用于 Conceptual Captions 数据集的非标志性图像时,更改语义的机会更高 3 . 这种语义不一致性给图像文本表示对齐带来了额外的困难。 为此,我们设计了一种更轻量级的数据增强方法来训练ProtoCLIP,对SimCLR增强参数进行了两处修改:1)图像随机调整大小和裁剪,比例范围为50%到100%,而不是8%到100%;2)应用颜色抖动的概率从0.8降低到0.2。 如图 5 所示,这种数据增强比SimCLR增强保持了更高的语义一致性。
我们注意到,通过应用随机数据增强,我们提出的情景训练策略和PBT可以隐式地为图像表示创建额外的对比监督。 回想一下,情景训练包括三个步骤:1)特征提取,2)原型构建,和3)模型训练。 由于第一步和第三步是独立进行的,因此不同的增强会被提取并应用于同一图像。 在模型训练步骤中,图像的表示被推向在特征提取步骤中构建的其另一个视图的指定和转换后的质心,从而产生额外的对比监督。
这种隐式对比与SwAV和DeepCluster-v2有一些相似之处,它们通过“对比聚类分配” [12] 来学习视觉表示。 然而,它们使用聚类分配来建立模态内的监督,而ProtoCLIP的隐式对比是通过文本表示空间完成的。 最近的SLIP [31] 和DeCLIP [33] 也应用了基于数据增强的对比来提高VLP性能。 然而,它们通过在每个训练步骤中向前传递图像的额外视图来显式地对比图像表示,这导致内存占用显着增加,并且最大允许批量大小减小。 4 在我们的ProtoCLIP中,在特征提取和模型训练期间分别构建了用于隐式对比的两种视图。 尽管这会导致额外的耗时,但最大允许的批次大小不受影响。
我们使用图像和文本编码器提取的1024维L2归一化表示(即
Dataset | Classes | Testset Size | Description |
---|---|---|---|
ImageNet | 1,000 | 50,000 | 1000 categories of objects |
DTD | 47 | 1,880 | 47 categories of texture patches |
Food101 | 101 | 25,250 | 101 categories of food dishes |
Oxford-IIIT Pet | 37 | 3,669 | 37 breeds of cats and dogs |
RenderedSST2 | 2 | 1,821 | 2 classes of positive or negative movie reviews rendered as text |
Birdsnap | 500 | 1,855 | 500 categories of North American bird species |
Country211 | 211 | 21,100 | 211 countries represented by geo-tagged images |
Flowers102 | 102 | 6,149 | 102 species of common UK flowers |
GTSRB | 43 | 12,630 | 43 categories of German traffic signs |
UCF101 | 101 | 11,213 | 101 categories of human actions using the middle frame of each clip |
Stanford Cars | 196 | 8,041 | 196 categories of cars (make, model, and year) |
CIFAR10 | 10 | 10,000 | 10 categories of animals and vehicles |
CIFAR100 | 100 | 10,000 | 100 categories of animals, vehicles, plants, objects, scenes, people |
STL10 | 10 | 8,000 | 10 categories of animals and vehicles |
归一化之前的1024维冻结图像表示(
遵循DINO [70] ,我们应用K-NN分类来评估图像表示的质量。 我们基于训练集表示构建K-NN分类器,然后测量测试集上的top-1分类精度。 与线性探测相比,K-NN对超参数不太敏感,我们对所有数据集都设置K=20 [70] 。
图像-文本检索任务包括图像到文本检索和文本到图像检索。
性能在零样本设置(即,无需微调)下在MS-COCO
[71]
基准上进行评估。
使用L2归一化后的1024维图像和文本表示的点相似度(
图像编码器被迁移用于执行目标检测。 我们采用了Mask R-CNN检测器 [72] ,并在MS-COCO数据集上对预训练编码器进行了12轮微调,遵循DenseCLIP [73] 。
本节验证了ProtoCLIP超参数的影响。
使用了Conceptual Captions (CC)
[58]
数据集的百万级子集。
为了避免测试集超参数微调,这里采用CIFAR10、CIFAR100和STL10数据集进行验证。
其他下游数据集的基准测试将在
IV-E
节和
IV-F
节中报告。这里的总训练量(episode size
如
III-D
节所示,原型可靠性和更新频率之间存在权衡。
在这里,我们尝试找到一个最佳的episode大小,通过使用不同的episode大小训练ProtoCLIP(不使用
接下来,我们转向选择最佳的目标温度
用于ImageNet预训练的基于聚类的SSL通常将聚类的总数设置为几千个(例如,对于SwAV
[12]
为
最后,我们比较了不同的外部教师。 我们考虑预训练CLIP (ViT/B-32) [1] 的文本编码器和预训练的RoBERTa [10] 。 图 6 (d)显示,这两个外部教师都有益于ProtoCLIP,而RoBERTa带来了更大的改进。
使用选择的超参数,我们现在在完整的 CC 数据集上训练 ProtoCLIP。
原始的 CC 数据集
[58]
(收集于 2018 年)包含超过 330 万个样本。
不幸的是,由于链接中断,越来越多的图像变得无法访问。
为了便于未来的基准测试,我们使用 CC 中的 2,500,000 个样本 (CC2.5M) 来训练我们的模型。
此规模远小于原始 CLIP
[1]
的规模。
但是,如图
7
所示,我们使用不同大小的数据集训练 CLIP,并发现 CLIP 模型(蓝色)的下游性能随着数据集大小稳定地(接近对数地,如红色虚线所示)稳步提高。
Ilharco 等人
[51]
也证明了这一点。
因此,CC2.5M 的数据集大小已经能够准确地反映 VLP 模型的有效性。
我们继续采用 ResNet-50
[48]
和 Transformer
[26]
作为图像和文本编码器。
使用单节点 4
我们在 ImageNet、CIFAR 和 STL 上进行了线性探测和零样本分类。
我们注意到,CLIP 模型通常在更多样化的下游数据集上进行评估。
然而,由于 CC 数据集无法为开放词汇视觉概念提供足够的覆盖范围
[74]
,因此在这些多样化数据集上的下游性能极低(例如,
我们首先验证了每个ProtoCLIP组件在CC2.5M上的有效性。 我们在CC2.5M上训练ProtoCLIP 8个epochs,并将其零样本分类和线性探测性能与CLIP以及ProtoCLIP的消融实验进行比较。 报告了ImageNet上的分类准确率以及CIFAR10、CIFAR100和STL10上的平均准确率。 我们首先移除外部教师RoBERTa,然后分别消融1) PBT,2) 软目标,3) K -Means优化和4) 数据增强。 如表 III 所示,完整的ProtoCLIP总体上取得了最佳性能。 其他所有比较都产生了性能下降,这表明每个组件的有效性。 对于ImageNet线性探测精度,引入PBT带来了+1.83%的改进,而引入外部教师带来了+1.76%的改进。 所有这些ProtoCLIP的消融实验在大多数指标上都优于CLIP基线。
接下来,我们通过在CC2.5M上训练ProtoCLIP标准的32个epochs来进行基准测试,并进一步将ProtoCLIP的epochs减半或将CLIP基线的epochs加倍,以比较训练效率。 表 IV 总结了主要结果。 使用相同的32个训练epochs(第2行与第3行),ProtoCLIP在ImageNet线性探测上的性能优于CLIP +5.81%,在ImageNet零样本分类上的性能优于CLIP +2.01%。 由于ProtoCLIP在训练过程中增加了额外的步骤(特征提取, k -Means聚类等),我们也通过“相对轮数”(Rel.)来报告绝对训练时间 ,以此与一个标准CLIP轮数进行比较。 比较前两行,使用67%的训练时间(ProtoCLIP 21.5 Rel. / CLIP 32.0 版本。 ),ProtoCLIP在ImageNet零样本Top-1、Top-5和线性探测方面优于CLIP,并在检索方面与CLIP的性能相当。 类似地,比较第三行和第四行(ProtoCLIP 43.1 Rel. 与 CLIP 64.0 版本。 ),也可以得到类似的观察结果。 这些比较证明了ProtoCLIP的效率。 有趣的是,ProtoCLIP还显示出改进数据效率的潜力,即使这不是我们的主要设计目标。 使用250万数据,ProtoCLIP实现了20.39%的ImageNet零样本分类精度,略高于使用额外0.4M数据的CLIP模型(20.33%,见 [29] )的精度。 同时,ProtoCLIP的这一结果是通过使用大约2/3的训练时间实现的(ProtoCLIP 21.5 Rel. 与 CLIP 31轮)。
Method |
|
|
|
|
|||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
CLIP | 9.89 | 41.30 | 38.77 | 67.32 | |||||||||
ProtoCLIP | 11.96 | 46.55 | 42.74 | 70.96 | |||||||||
ProtoCLIP w/o RoBERTa | 11.91 | 44.76 | 42.81 | 69.45 | |||||||||
|
- w/o PBT | 11.23 | 42.93 | 42.32 | 68.89 | ||||||||
|
- w/o soft target | 11.28 | 44.22 | 42.66 | 69.18 | ||||||||
|
- w/o K -means | 11.62 | 44.27 | 38.67 | 67.22 | ||||||||
|
- w/o augmentation | 11.17 | 44.39 | 38.67 | 68.75 |
|
Data | Epoch (Rel.) | Method |
|
|
|
|
||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
512 | 2.5M | 16 (21.5) | ProtoCLIP | 20.39 | 40.02 | 50.47 | 36.01 | ||||||||||
32 (32.0) | CLIP | 19.46 | 38.42 | 49.41 | 36.48 | ||||||||||||
32 (43.1) | ProtoCLIP | 21.47 | 40.84 | 55.22 | 35.69 | ||||||||||||
64 (64.0) | CLIP | 20.34 | 39.21 | 51.14 | 37.61 | ||||||||||||
512 | 2.9M | 31 |
|
23.97 | - | - | - | ||||||||||
|
20.33 | - | - | - | |||||||||||||
1024 | 3M | 32 |
|
27.2 | - | - | - | ||||||||||
|
20.6 | - | - | - |
我们在YFCC-100M [19] 子集YFCC-15M(由OpenAI [1] 过滤)上训练ProtoCLIP,该子集包含约1500万个图像-文本对。 我们使用了ResNet-50 [48] 以及更大的ResNet-101主干网络。 OpenCLIP [51] 发布的CLIP检查点(YFCC-15M,32个epoch)被用作基线。
下游性能总结在表 V 中。令人印象深刻的是,ProtoCLIP的性能与CLIP相当,预训练时间成本约为其1/3,这表明ProtoCLIP显著提高了表示学习效率。 各个数据集的零样本准确率见表 VI ,该表显示ProtoCLIP在14个数据集中的9个数据集上优于CLIP。 与线性探测相比,ProtoCLIP在K-NN分类中具有更多优势。 线性探测测量图像表示的线性可分性,而K-NN测量语义上相似的样本是否被正确聚类。 我们认为ProtoCLIP在K-NN分类中的优势源于原型对比和高效的表示分组。 第 IV-G 3 节中的聚类评估进一步证明了这一特性。 ProtoCLIP图像表示的质量通过目标检测的迁移学习得到证实:8个epoch(10.8 Rel.)。 ProtoCLIP 的结果与 32 个 epoch 的结果匹配(相对值 32.0) CLIP。 有趣的是,我们发现 ProtoCLIP 在检索方面取得了显著的改进,这似乎与 Conceptual Captions 预训练的观察结果相矛盾。 我们将把对这种现象的研究留待未来的工作。
|
|
|
|
Zero-shot | Linear | K-NN | Retrieval | |||
---|---|---|---|---|---|---|---|---|---|---|
Arch. | Model | Data | Epcoh (Rel.) | IN | 14 Avg. | IN | 9 Avg. | IN | 9 Avg. | Mean Recall |
|
CLIP | 15M | 32 (32.0) | 32.7 | 31.1 | 61.5 | 65.8 | 56.0 | 57.8 | 40.9 |
RN50 | ProtoCLIP | 14M | 8 (10.8) | 32.0 | 31.9 | 62.1 | 65.4 | 56.7 | 58.3 | 42.7 |
|
|
-0.7 | +0.8 | +0.6 | -0.3 | +0.8 | +0.5 | +1.8 | ||
|
CLIP | 15M | 32 (32.0) | 34.8 | 32.9 | 63.1 | 66.2 | 57.9 | 59.0 | 43.2 |
RN101 | ProtoCLIP | 14M | 8 (10.8) | 33.8 | 33.0 | 62.9 | 65.4 | 58.0 | 59.0 | 44.7 |
|
|
-1.0 | +0.1 | -0.2 | -0.8 | +0.2 | +0.1 | +1.5 |
我们在此还展示了零样本分类(表 VI )、线性探测和 K-NN 分类(表 VII )、零样本图像文本检索(表 VIII )以及 MS-COCO 目标检测(表 IX )的完整结果。 这些结果是表 VI 中的详细结果。
Arch. | Method | Data | Epcoh (Rel.) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
RN50 | CLIP | 15M | 32 (32.0) | 21.81 | 49.12 | 20.32 | 6.34 | 17.55 | 50.24 | 42.80 | 9.57 | 27.45 | 49.92 | 3.99 | 79.14 | 24.32 | 32.72 | 31.09 | |||||||||||||||
ProtoCLIP | 14M | 8 (10.8) | 19.92 | 53.95 | 24.60 | 7.14 | 20.00 | 50.51 | 38.61 | 7.19 | 23.88 | 50.08 | 4.68 | 86.13 | 27.84 | 32.02 | 31.90 | ||||||||||||||||
|
|
|
|
-1.88 | +4.83 | +4.28 | +0.80 | +2.45 | +0.28 | -4.19 | -2.38 | -3.57 | +0.16 | +0.68 | +6.99 | +3.52 | -0.70 | +0.80 | |||||||||||||||
RN101 | CLIP (32.0) | 15M | 32 | 22.94 | 52.99 | 22.94 | 6.82 | 18.24 | 50.40 | 44.18 | 9.41 | 30.25 | 49.92 | 3.69 | 86.68 | 27.44 | 34.84 | 32.91 | |||||||||||||||
ProtoCLIP | 14M | 8 (10.8) | 19.49 | 57.23 | 26.50 | 7.92 | 19.68 | 52.02 | 39.60 | 7.34 | 25.78 | 50.03 | 5.04 | 88.75 | 28.26 | 33.80 | 32.96 | ||||||||||||||||
|
|
|
|
-3.45 | +4.24 | +3.56 | +1.10 | +1.44 | +1.63 | -4.58 | -2.07 | -4.47 | +0.11 | +1.34 | +2.08 | +0.82 | -1.04 | +0.05 |
Arch. | Method | Data | Epcoh (Rel.) | CIFAR10 | CIFAR100 | DTD | Food101 | OxfordIIITPet | RenderedSST2 | StanfordCars | STL10 | ImageNet | 9 Dataset Avg. | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | Linear | KNN | ||||
RN50 | CLIP | 15M | 32 (32.0) | 83.65 | 78.31 | 62.41 | 54.11 | 66.60 | 62.13 | 72.82 | 64.02 | 66.50 | 43.12 | 55.96 | 51.84 | 28.26 | 17.52 | 94.16 | 93.34 | 61.54 | 55.96 | 65.77 | 57.82 |
ProtoCLIP | 14M | 8 (10.8) | 82.84 | 78.07 | 61.28 | 53.95 | 69.73 | 65.69 | 69.62 | 60.13 | 67.10 | 45.52 | 54.48 | 51.46 | 27.67 | 19.67 | 94.16 | 93.28 | 62.13 | 56.72 | 65.45 | 58.28 | |
|
搜猪 · 生猪现货日报|全国均价14.78元/公斤 持续上涨后养殖端认价出栏增多 二育入场积极性减弱 10 小时前 |
|
砺剑 · 43年前的今天,西沙海战我军完胜! 8 年前 |
|
腾讯财讯 · 解读1月CPI数据:PPI创五年新高 健康牛值得期待 8 年前 |
|
哈尔滨日报 · 除了法国,中国驾照还在哪好使? 8 年前 |
|
马哥Linux运维 · 看你用错了没!Linux必知必会之内存使用统计命令free 7 年前 |
|
化工707 · 今日化工新闻简报 2017-7-25 7 年前 |