25年1月来自马里兰大学的论文“Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey”。
多模态视觉语言模型 (VLM) 已成为计算机视觉和自然语言处理交叉领域的一项变革性技术,使机器能够通过视觉和文本模态感知和推理世界。例如,CLIP [209]、Claude [10] 和 GPT-4V [273] 等模型在视觉和文本数据上表现出强大的推理和理解能力,并在零样本分类 [107] 上击败经典的单模态视觉模型。尽管它们在研究方面取得快速进展,在应用中也越来越受欢迎,但对现有 VLM 研究的全面调查却明显缺乏,特别是对于旨在将 VLM 用于特定领域的研究人员而言。为此,本文从以下方面对 VLM 进行系统的概述:[1] 过去五年 (2019-2024) 开发的主要 VLM 的模型信息;[2] 这些 VLM 的主要架构和训练方法;[3] VLM 的流行基准和评估指标的总结和分类; [4] VLM 的应用,包括具身智体、机器人和视频生成;[5] 当前 VLM 面临的挑战和问题,如幻觉、公平性和安全性。
预训练的大语言模型 (LLM),如 LLaMA [233]、GPT-4 [195],已在广泛的 NLP 任务中取得显著成功 [169, 180]。然而,随着这些模型的规模不断扩大 [187],它们面临着两个挑战:(1) 高质量文本数据的供应有限 [237, 139];(2) 单模态架构在捕获和处理现实世界信息方面的固有局限性,这需要理解不同模态之间的复杂关系 [72, 94]。这些局限性促使人们努力探索和开发 VLM,它将视觉(例如图像、视频)和文本输入结合起来,提供对视觉空间关系、目标、场景和抽象概念的更全面理解 [22, 84]。 VLM 扩展先前局限于单模态方法的表征边界,支持更丰富、更具情境信息的世界观 [58, 240, 164],如视觉问答 (VQA) [4]、自动驾驶 [231]。与此同时,VLM 也面临着不同于单模态模型的新挑战,例如视觉幻觉。当 VLM 生成的响应不包含有意义的视觉理解,而是主要依赖于存储在 LLM 组件中的参数知识时,就会出现这种现象 [75, 148]。目前已经有几篇关于单模态模型的评论 [186, 30],而多模态模型的评论仍然缺失。
本文对 VLM 的研究成果进行批判性分析,系统地回顾当前主要的 VLM 架构、评估和基准、应用以及 VLM 面临的挑战。
近年来,领先的人工智能 (AI) 组织不断发布新的 VLM [149]。从 OpenAI 的 CLIP [208]、Salesforce 的 BLIP [130]、DeepMind 的 Flamingo [7] 到 GPT- 4V [273] 和 Gemini [9],这些模型变得越来越大,交互性越来越强,并说明聊天机器人功能在 VLM 框架内的集成,以支持多模态用户交互,从而改善用户体验。下表根据以下三个主要研究方向列出 2019 年至 2024 年的 SoTA VLM。
VLM 的架构正在从零开始进行预训练转变为使用预训练的 LLM 作为主干来对齐视觉和文本信息。但是,基本组件基本保持不变。上表给出 SoTA VLM 的详细信息,展示基本 VLM 架构的转变以及通过将视觉特征视为token将视觉特征与文本特征融合在一起的较新的架构创新。
通用架构组件
视觉编码器,在将视觉组件投影到与大语言模型 (LLM) 嵌入对齐的嵌入特征中起着至关重要的作用,可用于文本或图像生成 [62] 等任务。它经过训练可以从图像或视频数据中提取丰富的视觉特征,从而实现与语言表示的集成 [167, 299]。
具体来说,许多 VLM [152, 245, 48, 41] 中使用的视觉编码器,是在大规模多模态或图像数据上进行预训练的:这些编码器在图像-文本对上进行联合训练,使它们能够有效地捕捉视觉和语言关系。值得注意的例子包括 CLIP [209],它通过对比学习对齐图像和文本嵌入,以及 BLIP [131],它利用引导预训练实现稳健的语言-图像对齐。在大规模 ImageNet [51] 或类似数据集上进行预训练:这些编码器在大量标注的视觉数据上进行训练或通过自监督训练 [200],使它们能够捕获特定领域的视觉特征。虽然最初是单模态的,但这些编码器(例如 ResNet [88] 或 Vision Transformers (ViTs) [57])可以适应多模态任务。它们擅长提取有意义的目标级特征,并为视觉语言模型奠定坚实的基础。许多 SoTA VLM,例如 Qwen2-VL [245] 和 LLaVA [153],通常都包含预训练的视觉编码器。这些编码器不仅提供稳健且有意义的视觉表示,而且对于迁移学习也非常有效 [286]。它们通过利用从训练领域中学习到的视觉知识,表现优于随机初始化的编码器 [93]。
文本编码器将token化的文本序列投影到嵌入空间中,类似于视觉编码器处理图像的方式。 CLIP [209]、BLIP [131] 和 ALIGN [110] 等模型同时使用图像编码器和文本编码器。这些模型使用对比学习在共享潜在空间中对齐图像和文本嵌入,从而有效地捕获跨模态关系。然而,较新的模型(例如 LLaVA [153])通常不包含专用的文本编码器。相反,它们依靠大语言模型 (LLM)(例如 LLaMA [233]、Vicuna [201])进行文本理解,通过投影层或交叉注意机制整合视觉输入 [143]。这种转变表明,在更通用和更先进的多模态推理和生成任务中,使用 LLM 的功能而不是视觉组件的趋势日益增长。
文本解码器利用 LLM 作为主要文本生成器,使用视觉编码器来投射图像特征 [118]。GPT-4V [195]、Flamingo [8] 和 Kosmos-2 [203] 都使用这种方法。这些模型通常使用最小的视觉投影机制,允许强大的语言解码器生成丰富的上下文输出。VisualBERT 和 VilBERT [160, 134] 为多模态预训练的解码器架构提供基础。从头开始训练 VLM 通常需要单独的文本解码器,而使用 LLM 作为主干通常使用 LLM 中的原始解码器。(如图所示)。
交叉注意机制通过允许来自一种模态(视觉)的token影响来自另一种模态(文本)的token,实现视觉和文本特征之间的动态交互 [143]。交叉注意层通常用于通过计算每对视觉和文本token之间的注意分数来整合跨模态的信息。并非所有模型都使用交叉注意机制。例如,VisualBERT [160] 和 Flamingo [7] 都具有交叉注意机制,而 CLIP [209] 没有交叉注意。
从头开始训练的构建模块
与使用 LLM 作为主干相比,从头开始训练 VLM 通常使用不同的训练目标和方法。自监督学习 (SSL) 无需人工标记数据即可进行预训练,从而扩大预训练规模 [87]。SSL 技术的变体包括蒙码图像建模 [86]、对比学习 [236] 和图像变换预测 [177]。
对比学习涉及使用单独的编码器进行视觉和文本输入,这些编码器经过训练以将各自的模态映射到共享的嵌入空间中。视觉编码器处理图像,从卷积神经网络 (CNN) [196] 或视觉转换器 (ViTs) [56] 等模型生成特征嵌入。文本编码器将文本输入处理成嵌入。对比学习通过最小化共享空间中视觉和文本嵌入之间的距离来对齐相关的图像-文本对。同时,它最大化不相关对嵌入之间的距离。CLIP [209]、BLIP [132] 和 ALIGN [110] 等先驱模型利用这种方法,在大规模图像-文本数据集上进行预训练,以开发用于下游任务的稳健、可迁移的表示。
使用 LLM 作为主干的构建块
大语言模型用作文本生成组件,处理编码的视觉和文本输入,以自回归方式为 VLM 生成文本输出 [25, 233, 195]。在 VLM 的上下文中,LLM 包括其原始文本解码器。
投影器将视觉编码器提取的视觉特征映射到与 LLM 中的文本嵌入对齐的共享嵌入空间中。它通常由多层感知器 (MLP) 层 [185] 组成,这些层将高维视觉表示转换为与文本模态兼容的紧凑嵌入token。投影器可以与模型的其余部分联合训练,以优化跨模态目标或冻结模型的某些部分(例如 LLM)以保留预训练的知识。大多数当代例子包括 LLaVA [152]、QWen-2-VL [245]、Nvidia VLM [48]、百川 Ocean-mini [135]、Emu3 [248] 和 Pixtral(多模态解码器)[5]。
联合训练是一种端到端方法,可并行更新模型所有组件的权重,而无需冻结任何权重,包括 LLM 和投影器层。这种方法已在 Flamingo [7] 等模型中使用。
冻结训练阶段包括在训练期间选择性地冻结模型组件,在适应新任务的同时保留预训练的知识 [96]。常见策略包括冻结预训练的视觉编码器,同时微调投影器层,并逐步解冻组件 [204] 或冻结 LLM 层,同时仅更新视觉编码器权重 [234]。
较新的架构
最近的研究重点是增强视觉和文本特征的融合。
将所有模态视为token是一种较新的方法,它将视觉输入(图像和视频)读取并编码为类似于文本token的 tokens。Emu3 [247] 使用 SBER-MoVQGAN 将视觉输入编码为token,并使用特殊分隔符(例如 [SOT] 和 [EOV])来标记视觉token的开始和结束。它仍然保留 Llama [233] 等 LLM 架构,但扩展嵌入层以适应离散视觉token(均方根层归一化层 [291] 和多查询注意 [6])。此外,它将视觉和文本输出的生成,视为统一多模态表示的token预测任务。
Transfusion 在单个 Transformer 架构中同时处理不同的模态 [305]。该方法通过引入战略的breakpoint来并行处理离散文本token和连续图像向量。虽然尚未完善,但该方法显示出开发能够处理多种输入类型、更统一的、多模态模型的潜力。
自 2022 年以来,随着新 VLM 的快速发展,VLM 基准的数量迅速增长 [43, 296]。全面的基准测试对于评估模型性能和确保跨数学推理、场景识别等不同方面进行稳健的训练非常重要 [161, 73]。现代 VLM 基准测试已经超越基本的视觉问答等简单任务,包括更广泛的测试,可以从更多方面更好地评估模型的多模态能力 [65]。
基准测试分类
。基准测试是根据特定的测试目标而设计的,分为十个主要类别(如表所示)。
基准数据是如何收集的
基准数据集通常使用以下三种常见数据收集流程之一创建:完全人工注释的数据集;部分人工注释的数据集,通过合成数据生成进行扩展,并由人工进行部分验证;部分人工注释的数据集,通过合成数据进行扩展,并由人工进行完全验证。
完全人工注释的数据集是通过让人类收集或生成来自不同学科和领域的对抗性或挑战性测试问题来创建的。例如,MMMU[284] 有 50 名来自不同学科的大学生从教科书和讲座材料中收集现有的测试问题,通常采用多项选择题格式。另一种方法是让人类创建问题,并让注释者提供这些问题的答案。在 VCR[287] 中,Mechanical Turks 的任务是使用上下文、检测的物体和图像,为每个图像编写一到三个问题,以及合理的答案和解释。完全人工注释的数据集耗时且难以扩展,这为通过人工验证自动生成问题带来灵感。
合成问题生成已成为图表理解 [173]、视频理解 [171] 等各个学科基准生成流程中更受欢迎的一部分,以快速扩大数据集大小。常见的做法包括使用人类书面示例作为种子示例,为强大的 LLM 提供更多对抗性示例问题和答案 [126]。通常,生成过程仅涉及文本。图表和视频数据通常与视觉内容和字幕题配对,作者经常使用它们作为上下文来提示 LLM 提取答案并生成问题 [171, 133]。然而,LLM 并不总是准确的,可能会产生不真实的内容或幻觉 [268]。为了解决这个问题,流程通常包括自动过滤器以删除低质量输出,然后由众包人员对随机抽样或所有生成的示例进行验证 [173, 126, 171]。自动基准生成,有助于在减少人力的情况下扩展数据集大小。然而,目前的自动问题生成方法主要依赖于标题和文本上下文,这会导致创建易于回答的问题而不需要大量的视觉推理 [75],这破坏基准测试的主要目标——评估 VLM 理解和推理视觉内容的能力。
模拟器中的交互主要针对机器人技术中的 VLM 基准测试。它通过在线评估由 VLM 驱动的智体来收集用于训练和评估的数据。作为一种源自强化学习的数据生成方法,这种数据生成方法适用于那些人工标注的数据集或合成数据集难以获取且成本高昂的场景,而数据构造遵循一些通用规则,如物理定律或其他一些常识。通过这种基于规则的数据获取方法,结果 VLM 对多模态输入内的偏差具有更强的鲁棒性。近年来,许多研究集中于机器人 [213、264、127、179、176、302、67] 和 Web 智体 [307] 的逼真模拟器,以模拟人类智体或机器人与物理世界的交互。尽管如此,基于模拟器交互数据记录的基准 [213、264、127] 也被广泛用于 VLM 智体的训练和评估。值得注意的是,人们更加努力地使用生成模型 [272] 甚至世界模型 [150、97、11] 来取代以前的模拟器或数据集,为 VLM 生成更实用、质量更好的数据集。虽然模拟器被广泛用于训练和评估 VLM 驱动的智体,但在将终端 VLM 移植到现实世界应用程序中时,可能存在潜在的 sim-2-real 差距,即 VLM 驱动的智体可能无法处理某些现实世界的情况。仍将朝着缓解这些问题的方向做出更多努力。
评估指标
基准是为评估而设计的,其指标在创建时就已确定。VLM 评估指标是自动的,以支持大规模重复使用,并且它们通常会影响基准中使用的问题格式。如图展示基准中使用的常见评估指标。
答案匹配
广泛用于开放式和封闭式问题类型,即答案为短格式实体、长格式答案、数字或是/否。生成式 VLM 比提取式 LLM 和 VLM 更冗长,它们通常会生成冗长但正确的答案 [141],包含
精确匹配
[108] 是一种更实用的版本,在评估中更常用,包括删除预测答案的冠词和空格,并检查归一化的预测答案是否包含在归一化的黄金答案中 [125, 33]。然而,精确匹配往往具有较高的召回率,这往往无法解释黄金答案和预测答案之间的语义等价性,经常将人类可接受的正确答案误判为不正确 [26, 31, 141],并且对于寻求长格式答案的基准测试来说变得不可能 [265]。在 LLM 成功后的指令之前,标准token重叠算法(如 F1、ROUGE [142]、BLEU [198])用于衡量黄金答案和预测答案之间的相似度得分,但当生成模型生成更复杂、更多样化但正确的答案时,它们开始失败 [265, 31, 141, 26]。
如图所示:常见的基准评估指标限制大多数基准的格式,主要评估 VLM 是否可以生成与正确答案匹配的简短答案。
因此,一些基准测试(如 MM-Vet [281])采用 LLM 来评估生成的答案,当答案是需要语义理解来判断正确性的长格式答案时。事实证明,LLM 评估与人工评估具有最高的相关性,但它们也面临着通过内部模型更新或更改提示指令产生一致输出的困难 [170, 300, 116]。虽然目前没有完美的答案匹配评估方法,但与开放式问题相比,是/否问题最容易评估。因此,大多数基准测试都依赖多项选择题格式来评估 VLM。
多项选择
格式涉及从一组选项(包括干扰项)中选择一个答案,用于给定的视觉问题 [278、287、126、263]。这种格式提供明确的答案,并且是最容易评估的格式之一,因为它可以测量 VLM 正确回答问题的百分比。然而,LLM 已经展示一种不同寻常的能力,即使没有实际问题,它也能选择正确的答案 [17]。由于 VLM 包含一个用于生成响应的 LLM 组件,因此需要进一步研究以评估当前 VLM 基准的稳健性和可靠性。
图像/文本相似度分数通常用于图像生成基准,如 T2I-CompBench、GenEval [101、70],以评估生成的图像与其相应文本描述之间的对齐情况。它们通常依赖于 CLIPScore [90] 等用于图像文本对齐或 ROUGE 用于字幕匹配的措施来评估输出和参考之间的语义和词汇相似性。
综上所述,VLM 基准涵盖广泛的问题类型、专业领域和任务,仅 MMLU [89] 就涵盖 57 个不同的任务。然而,流行的评估仍然主要局限于简单的答案匹配或多项选择格式,远远偏离图灵测试对一般智力的更广泛定义 [235]。
下表是各种基准和评估,以及它们的标注和数据源:
VLM 适用于各种各样的任务,从虚拟世界应用(例如虚拟具身智体)到现实世界应用(例如机器人和自动驾驶)。
具身 VLM 智体
视觉问答 (VQA) 是一项基础任务,涉及根据视觉和文本内容回答问题 [4]。它需要从图像或视频序列中提取有意义的信息,例如识别目标、场景和活动。在实践中,具身 VLM 智体 [156] 是 VQA 的一种流行应用,范围从具身个人设备聊天机器人辅助,到针对低视力用户的视觉图表解释和图表生成 [82, 181]。
具身智体是具有虚拟或物理主体的 AI 模型,可以与环境交互 [230]。纯文本智体(例如 Apple Intelligence [79])可以通过将用户请求转换为可执行代码来处理、推理和执行用户请求以控制手机应用程序,但缺乏视觉推理能力。在这种情况下,特别关注具有虚拟身体的具身智体,特别是与 VQA 模型在个人帮助和无障碍方面的应用有关。
具身 VLM 智体作为辅助应用程序和无障碍功能,旨在帮助用户在设备上执行操作或提供屏幕答案以帮助视力低下的人。最近的发展包括:
ScreenAI
[13] 专门用于理解用户界面 (UI) 组件并回答有关屏幕元素的问题。智能手机助手 [55] 通过使用端到端 VLM 扩展此功能,该 VLM 直接读取视觉屏幕输入和用户请求并转换为可执行代码序列以满足用户请求操作。与智能手机助手类似,
ScreenAgent
[189] 使用三步法(规划、行动、反思)来处理用户请求。它首先通过自然语言描述理解 UI 组件,然后将用户请求分解为子任务,最后以函数调用格式生成鼠标和键盘操作以在用户屏幕上执行操作。此外,其中一些 VLM 智体可能还需要图表理解或生成功能,以告诉用户图形、图表或图表的含义。VLM 往往容易产生幻觉,尤其是对于经常提取错误数字的图表理解。
ChartLLaMA
[82] 专门针对理解各种图表或绘图视觉输入进行微调,可以更准确地提取和解释数字。尽管如此,这些 VLM 应用程序仍可作为助手,帮助用户自动执行无需用户参与的操作,并帮助残疾人士更好地访问和理解 UI 页面,以提高可访问性 [271]。
尽管具身虚拟 VLM 智体取得了进步,但它们对语言模型的依赖存在局限性,通常使用视觉作为补充作用,而不是完全整合两种模态 [75]。这些模型通常使用语言推理作为主要驱动力,视觉输入起次要作用,导致视觉理解不足,无法有效地为决策提供信息。[293,100]。除了虚拟应用之外,具身化的 VLM 智体还用于执行真实物理世界应用,例如手术规划和模拟以降低风险 [53]。
生成式视觉媒体应用
生成式 VLM 模型,包括生成式对抗网络 (GAN)[71]、扩散模型[91] 和较新的框架(如 Transfusion),广泛应用于媒体应用,以协助艺术和内容创作。生成式 VLM 模型的一个显著应用是创建
meme
,一种互联网通用语言。
Supermeme.ai
[2] 等平台使用 VLM 模型生成 110 多种语言定制的 meme,使用户能够通过幽默或相关的视觉内容有效地表达情感或想法。此外,生成式 VLM 模型还用于电影和视觉效果。例如,
MovieGen
[205] 允许用户根据用户输入将静态图像转换为视觉震撼的视频效果,从而创建动态电影场景。
机器人和具身人工智能
视觉语言模型与机器人技术的融合是一个非常热门的话题,它将网络空间中的基础模型与物理世界联系起来 [157]。近几年出现大量的研究工作,重点是将 VLM 的能力应用于视觉推理 [60, 32]、复杂场景理解 [222, 155]、规划 [274, 39] 等各种任务,包括
操作
[113, 102]、
导航
[168, 76, 280]、
人-机交互
[225, 238]、
多机器人协调
[40, 251]、
运动规划
[215, 111]、
奖励函数设计
[288, 282, 165] 等。该领域的革命性发展引发许多尚未探索的研究问题,引起机器人界的广泛关注,同时也揭示实施过程中的许多隐藏限制。
以人为中心的人工智能
VLM 的一个重要且有前景的应用是在人类与人工智能智体交互过程中利用其对人类意图和行为的理解和推理能力。LVLM 有助于执行情绪分析 [244]、预测人类意图 [104] 并协助人类与现实世界的互动 [199],涉及 AI4Science [28, 303]、农业 [308]、教育 [166, 257]、无障碍 [192, 294]、医疗保健 [277, 140]、气候变化 [34] 等许多社会公益应用。VLM 在所有这些领域都显示出令人印象深刻的潜力,并帮助广泛的人工智能革命对社会的每个角落产生广泛影响。