视觉识别,作为计算机视觉研究领域的长期挑战,始终是自动驾驶、遥感等应用的核心技术。其中,图像分类、目标检测和语义分割等任务,更是构成了这些应用的技术基石。近年来,深度学习的崛起为视觉识别带来了巨大的突破,然而,传统的视觉识别研究往往依赖于大量昂贵的标注数据进行网络训练,且每个任务通常需要独立的网络模型,这无疑增加了研究的时间和成本。为了克服这些挑战,大型视觉语言模型受到了广泛关注。这些模型通过学习互联网上海量的图像-文本对数据,捕捉丰富的视觉语言对应关系,从而能够实现各种视觉识别任务的零样本预测。因此,不再需要为每个任务单独训练网络,只需一个视觉语言模型(如CLIP、ALIGN)就能完成多种识别任务。
本文旨在对针对视觉识别任务的大型视觉语言模型进行全面综述,梳理其最新发展。首先,本文回顾了视觉识别技术的发展历程,阐述了视觉语言模型的基础知识和核心技术,包括其采用的深度网络架构、预训练目标以及评估模型性能的下游任务和常用数据集。在此基础上,对视觉语言模型的预训练方法进行了系统总结和分类,详细剖析了各类方法的优缺点。此外,本文还对基于视觉语言模型的迁移学习和知识蒸馏方法进行了深入探究。迁移学习使得预训练的视觉语言模型能够更好地适应不同的下游任务,提高模型的泛化能力;而知识蒸馏则通过从大型模型中提取知识来训练小型模型,实现模型的高效利用。最后,我们对所有讨论的方法进行了基准测试、分析和讨论,提出了当前研究中存在的挑战和未来可能的研究方向。
论文地址:
https://arxiv.org/pdf/2304.00685.pdf
项目地址:
https://github.com/jingyi0000/VLM_survey
综述动机
视觉语言模型,如CLIP,以其独特的训练方式显著简化了视觉识别任务的流程。它减少了对大量精细标注数据的依赖,使得研究者能够更高效地开展研究工作。
近年来,大量研究论文证明了研究者对视觉语言模型的浓厚兴趣。然而,目前尚缺乏一篇全面、系统的综述来梳理这一领域的研究进展、挑战和未来方向。因此,本文旨在填补这一空白,为研究者提供一个清晰、全面的视角。
综述特点
系统性:本文从多个维度对基于视觉语言模型的视觉识别进行了全面梳理,包括其发展背景、基础技术、数据集、预训练方法、迁移学习和知识蒸馏方法,以及未来的研究方向。
全面性:本文不仅涵盖了视觉语言模型的核心技术,还对其在视觉识别任务中的应用进行了深入分析。同时,我们还对相关的迁移学习和知识蒸馏方法进行了详细讨论。
详细分类与对比分析:对于视觉语言模型的预训练方法和迁移学习方法,本文进行了详细的分类和对比分析(图1)。例如,在预训练方法部分,我们将其分为基于对比学习、基于生成目标和基于对齐目标的方法,并深入剖析了各类方法的原理和优缺点。
视觉语言模型预训练方法的总结与对比
本文详细探讨了视觉语言模型的预训练方法,这些方法主要分为三大类别:基于对比学习的方法、基于生成任务的方法和基于对齐目的的方法。
基于对比学习的方法(Pre-Training with Contrastive Objectives):这类方法通过对比学习来训练模型,使其在特征空间中能够将配对的图像和文本拉近,同时将不相关的样本推远。根据对比学习的输入类型,我们又可以进一步细分为基于图像对比学习、基于图像-文本对比学习和基于图像-文本-标签对比学习的方法。
基于生成任务的方法(Pre-training with Generative Objectives):这类方法通过训练模型进行图像生成、文本生成或跨模态生成来学习语义特征。它们可以进一步细分为基于掩码图像建模、基于掩码语言建模、基于掩码跨模态建模和基于图像到文本生成的方法。
基于对齐目的的方法(VLM Pre-training with Alignment Objectives):这类方法旨在将图像和文本的特征进行匹配,包括全局的图像-文本匹配和局部的图像区域-单词匹配。
视觉语言模型迁移方法的总结与对比
除了直接应用预训练的视觉语言模型进行零样本预测外,迁移学习也是提高模型性能的重要手段。本文总结了视觉语言模型的迁移学习方法,主要包括提示调整方法、特征适配器方法和其他方法。
提示调整方法(Prompt Tuning):受自然语言处理中“提示学习”的启发,这种方法通过调整模型的提示来适应下游任务,而无需对整个模型进行微调。提示调整方法包括文本提示调整、视觉提示调整和文本-视觉提示调整。
特征适配器方法(Feature Adapter):这类方法通过在视觉语言模型上添加轻量级的特征适配器来进行微调,以适应下游任务的特定需求。
其他方法:除了上述两种方法外,还有一些研究通过直接微调视觉语言模型、更改模型架构或其他创新手段来进行迁移学习。
视觉语言模型知识蒸馏方法的总结与对比
视觉语言模型以其强大的视觉和文本概念理解能力,为复杂任务如目标检测和语义分割提供了新的解决思路。知识蒸馏作为一种有效的模型压缩和性能提升手段,在视觉语言模型的应用中发挥着关键作用。与视觉语言模型迁移方法不同,对视觉语言模型进行知识蒸馏的方法通常不受视觉语言模型架构的限制,并且大部分研究会利用当前最先进的检测或者分割架构的优势来达到更好的性能。在视觉语言模型的知识蒸馏方法中,本文根据应用场景的不同,将其分为两大类:开放词汇目标检测(Open-Vocabulary Object Detection)的知识蒸馏和开放词汇语义分割(Open-Vocabulary Semantic Segmentation)的知识蒸馏。
实验结果比较
本文分别对视觉语言模型的预训练方法,迁移方法和知识蒸馏方法在各自的评估任务上进行了比较,并且对结果进行了分析(例如图2-3)。
图2. 视觉语言模型预训练方法在图像分类任务中零样本预测的性能
图3. 视觉语言模型迁移方法在图像分类任务中的预测性能
未来研究方向
在视觉语言模型的研究中,尽管已经取得了显著的进展,但仍有许多挑战和潜在的研究方向值得进一步探索。
对于视觉语言模型的预训练:
细粒度视觉语言关系建模:目前大多数视觉语言模型主要关注全局的图像-文本对应关系,但细粒度的视觉语言关系(如物体间的空间关系、属性关系等)对于理解图像内容同样至关重要。未来的研究可以探索如何更有效地建模这些细粒度关系,以进一步提升模型的性能。
统一视觉和语言特征的学习:Transformer的出现使得图像和文字可以通过相同的方式进行学习,这使得可以采用统一的Transformer架构处理图像和文字。与现有采用两个独立网络的视觉语言模型相比,统一视觉和语言学习可以实现跨模态的有效交流,并有效提升预训练的效率。
3.多语言和多文化的视觉语言模型:现有的视觉语言模型主要关注单一语言和文化背景下的图像理解。然而,随着全球化的发展,多语言和多文化的视觉语言理解变得越来越重要。未来的研究可以探索如何构建能够处理多种语言和文化背景的视觉语言模型,以满足更广泛的需求。
对于视觉语言模型的迁移学习:
无监督的迁移策略:目前大多数迁移学习方法采用全监督或者少量标注样本监督学吸。未来的研究可以探索无监督迁移策略,以利用未标注的数据进行模型迁移,降低对数据标注的依赖以及过拟合的风险。
使用视觉提示/适配器进行迁移:目前的迁移研究主要集中在文本提示学习上。视觉提示学习或视觉适配器可以作为文本提示的补充,在各种密集预测任务中可以实现像素级的适应,从而获得更好的效果。
对于视觉语言模型的知识蒸馏,可以从两个方面进行探索。首先,可以同时对多个视觉语言模型进行知识蒸馏,通过协调多个视觉语言模型的知识蒸馏来获得更好的效果。其次,除了目标检测和语义分割等任务外,视觉语言模型的知识蒸馏还可以应用于其他视觉任务,如实例分割、姿态估计、视频理解等。未来的研究可以探索如何将这些方法扩展到更多的视觉任务中,以进一步提升视觉识别技术的性能和应用范围。
综上所述,视觉语言模型的研究仍具有广阔的前景和众多的挑战。未来的研究可以从预训练、迁移学习和知识蒸馏等多个方面进行深入探索,以推动视觉语言技术的发展和应用。
公众号后台回复“
数据集
”获取100+深度学习各方向资源整理