专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
电商报Pro  ·  刘强东重回一线 ·  昨天  
电商报Pro  ·  抖音砸5亿开科技公司,行业开始躁动不安 ·  3 天前  
跨国论坛北欧篇  ·  欧洲华人注意!从中国寄东西不再需要漫长等待! ... ·  3 天前  
51好读  ›  专栏  ›  AI算法与图像处理

字节团队提出 SuperClass 告别CLIP ,革新图像文本预训练分类技术 !

AI算法与图像处理  · 公众号  ·  · 2024-12-05 17:00

正文

来源: 集智书童

作者提出了SuperClass,一种用于图像文本数据上的视觉语言预训练的超级简单的分类方法。与对比学习的CLIP[57]不同,SuperClass直接利用分词的原始文本作为监督分类标签,无需额外的文本过滤或选择。

由于不存在文本编码作为对比目标,SuperClass不需要文本编码器,也不需要像CLIP[57]那样保持大的批量大小。

SuperClass在各种下游任务上表现出色,包括经典计算机视觉基准测试和视觉语言下游任务。

作者进一步探索了SuperClass在模型大小、训练长度或数据大小上的扩展行为,并报告了令人鼓舞的结果和与CLIP的比较。

1 Introduction

近年来,利用直接利用网络级图像文本数据集的预训练方法已经改变了计算机视觉领域。其中,对比语言图像预训练(CLIP)[57]获得了日益增长的普及度,并成为主导方法,原因如下。

首先,它作为行业的标准预训练模型,可以实现零样本视觉识别[50, 52],并在下游任务上进行微调。其次,观察到适当的缩放行为[12],即CLIP可以在一定程度上从更大的模型和更大的数据中受益。第三,它具有强大的跨模态能力,因为它天生就设计用于在文本和图像之间理解和连接信息。因此,CLIP风格的模型已成为大多数现代视觉语言模型的默认选择,这些模型将视觉背骨与深度语言模型相连接。

尽管CLIP取得了成功,但训练它需要非常大的批量大小(通常超过64,000)以实现最佳性能,并需要大量的计算资源进行文本编码。这种高计算需求限制了具有有限资源和工程专业知识的研究行人的可访问性。在作者的工作中,作者通过用更简单的分类方法替代对比方法,消除了需要大型对比批处理的需求,以及文本编码器的需要,试图解决计算负担沉重的问题。

在这项工作中,作者重新探讨了在大规模文本图像对上进行预训练的分类方法。一些先前的研究试图通过使用袋 of-words 分类在弱监督学习的方式下解决这一问题。然而,这些研究主要集中在小规模数据上,并且没有证据证明它们在数据规模和模型大小上的可扩展性。相反,作者的方法展示了 SuperClass在可比CLIP[57]规模上的性能,在10亿个已见样本和10亿个唯一文本图像对上实现了良好的模型性能。另外一些同时进行的研究[31]试图用分类方法替换对比学习。但是,它们严重依赖预处理文本模态,使用袋-of-words和其他手工制作的规则将文本转换为半标签。一些常见的做法包括过滤、词分割、词干提取和删除数字和停用词以创建一个独特的干净词汇。作者发现预处理往往会消除对表示学习有价值的较长尾词汇或包含有用信息的停用词。

相反,SuperClass simply利用原始词 Token 作为监督信号,不需要任何手工制作的预处理:没有过滤或删除停用词。因此,SuperClass保留了原始文本描述的所有信息作为监督信号。

作者提出了一个 超级简单分类方法(超级Class) ,它只需简单地训练来对原始文本 Token 进行分类,其扩展性类似于CLIP。如图1所示,与CLIP类似,超级Class直接在具有任何手动文本过滤的文本 Token 上操作。作者的全面实证研究显示,即使不需要文本编码器,分类方法也可以在模型能力和数据可扩展性方面达到与对比方法相当的性能。作者证明超级Class在图像分类和视觉与语言任务上都是对比方法的竞争性替代品。在相同的Datacomp-1B [21]数据集上预训练,具有相等的可见样本数量,超级Class在各种仅涉及视觉和仅涉及视觉与语言场景中,都显著优于其对比方法。作者还进一步探索了超级Class在模型大小和可见样本数量方面的扩展性。实验表明,基于分类的方法可以表现出与对比方法相当或更好的扩展性。作者希望作者的方法、实验和分析可以鼓励基于分类方法的潜在发展,作为基础的视觉语言预训练方法。

2 Related Work

随着大规模、网络资源的图像文本数据集的日益普及,出现了利用这些数据作为监督训练深度表示的新方法。这些方法通常涉及三种策略:使用文本作为分类标签、实现图像文本对比学习或将文本视为自回归目标。

图像文本数据用于模型训练的研究有着深厚的根源。早在20多年前,Image-to-Word 等早期工作便旨在提高基于内容图像检索的性能。本研究首次尝试训练模型预测与图像相关的文档中的名词和形容词。在这些早期想法的基础上,后续研究试图提高数据效率 ,模型有效性,以及词汇扩展。随着网络架构的发展,Tag2Text 和 RAM[78]利用了Vision Transformers (ViT)[18]作为视觉backbone,从CC12M数据集中[6]提取名词,并通过规则和手动选择相结合,确定了6,449个单词作为分类类别。类似地,CatLIP[51]从CC3M[65]和Datacomp-1B[21]数据集中过滤出“金标签”,并根据某些规则使用更大的图像文本对齐数据集训练视觉模型。

不同于依赖复杂规则或手动过滤来为分类词汇创建“黄金标签”的前期分类方法,作者的方法消除了这种过滤的需要。相反,作者直接将文本 Token 作为分类类别,保留了可能 otherwise 被丢弃的有价值的文本信息。

图像文本对比学习。大规模对比视觉语言预训练自从CLIP [57]和ALIGN [30]的引入而获得关注。此后,众多方法致力于提高CLIP的性能。例如,SigLIP [76]通过使用 sigmoid 损失来减少 CLIP 的软max 对比损失的计算量,从而降低计算负担。LiT [77] 采用预训练的视觉和语言 Backbone 进行对比训练,而其他方法 旨在提高图像文本预训练的训练效率。InternVL [11] 进一步创新,将大型语言模型集成到 CLIP 中的文本编码器中。

在作者的方法中,作者质疑了为对比学习编码文本信息所需的额外 Backbone 神经网络的必要性。相反,作者直接使用文本 Token 输入作为监督信号,消除了需要进行文本编码和避免大型对比操作的计算开销。这种简化设置实现了与双 Backbone 方法相当的表现。

文本作为自回归目标。近年来,许多研究  探讨了使用图像描述生成(IGG)来预训练模型。SimVLM [71] 通过在早期阶段将视觉和语言融合,采用混合架构(如视觉问答(VQA)等应用)进行预训练,从而在该领域进行创新。CapPa [70] 表明,仅通过描述生成就可以有效地预训练视觉编码器。

此外,最近的研究 [75, 42, 37] 将对比学习与描述生成目标相结合,有时还会加入额外的文本编码器。

在这项工作中,作者重新审视了基于分类的方法,并使用大规模的视觉语言数据集。与前面提到的图像描述方法不同,作者的分类方法将文本描述解码器集成在视觉编码器中,允许单个视觉编码器连接两种模式。实验表明,SuperClass在各种下游任务上实现了具有竞争力的,通常更好的性能。

3 A simple classification approach to pretrain vision encoders

在本节中,作者提出了作者的拟议方法SuperClass,它采用了一种基于分类的预训练方法,使用文本监督。

首先,作者概述了SuperClass的一般框架。然后,作者解释了如何将文本转换为类别标签,无需选择“黄金标签”,使所有文本都能监督图像编码器的训练。最后,作者说明了在各种分类损失中选择作者的损失设计。此外,认识到每个词的重要性和判别力,作者在损失设计中引入了逆文档频率作为类权重。

概述。作者旨在建立一个简单、可扩展和高效的自监督预训练方法,该方法基于图像分类与CLIP相匹配。为此,作者遵循标准协议,使用视觉 Transformer (ViT) Backbone 网络作为视觉编码器,随后是一个全局平均池化层和一个线性层作为分类头,输出逻辑向量 。监督目标来自图像相关的文本,分类损失使用文本派生的分类标签和预测的逻辑向量计算。

文本作为标签。作者直接使用分词后的文本作为K-hot标签,其中K是给定句子的 Token 数。

具体来说,对于一个给定的图像-文本数据集 ,其中 对图像 和文本描述 ,作者从基于分类的方法中区别开来,直接使用一个现有的子词级分词器,例如CLIP或BERT中使用的分词器,具有词汇量 。这种分词器输入文本 并得到相应的子词ID集合 ,作为分类标签。集合 中的标签满足 。将分类标签 转换为K-hot向量 ,其中 表示 中的 ,否则







请到「今天看啥」查看全文