专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
新青年麻醉论坛  ·  推荐 | ... ·  昨天  
医学界  ·  90后三甲医生辞职创业,收入翻了7倍 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

适用于通用和专业应用的视觉-语言大模型:综述

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-02-01 00:02

正文

25年1月来自康奈尔大学、亚利桑那州立大学、加州伯克利分校、德州奥斯汀分校和耶鲁大学的论文“Visual Large Language Models for Generalized and Specialized Applications”。

视觉语言模型 (VLM) 已成为学习视觉和语言统一嵌入空间的有力工具。受大语言模型的启发,视觉-语言大模型 (VLLM) 在构建通用 VLM 方面受到越来越多的关注,这些模型已展示出强大的推理和多任务能力。尽管 VLLM 取得了重大进展,但相关文献仍然有限,特别是从综合应用角度来看,涵盖视觉(图像、视频、深度)、动作和语言模态的通用和专门应用。综述中关注 VLLM 的多样化应用,研究它们的使用场景,确定道德考虑和挑战,并讨论其未来的发展方向。


计算机视觉任务具有挑战性且种类繁多,需要机器具备一系列能力,例如目标感知 [1]、[2]、空间理解 [3]、时间动作解释 [4]、[5]、与人类交互 [6],以及处理各种领域和数据转换的能力等。已经开发了许多视觉语言模型 (VLM) [5]、[7],通过利用大规模视觉-语言数据来增强视觉模型的泛化和推理能力,从而提高其应对这些不同挑战的能力。

传统的 VLM(2018 年之前,如图所示)旨在处理有限的视觉任务,例如字幕和检索,主要通过编码器-解码器架构。这些方法依靠 CNN 来提取视觉表征 [8]、[9] 或手工制作的视觉特征,并使用 RNN [10]、LSTM [11] 或基于CRF [12] 的解码器生成句子。然而,由于预训练数据集的规模有限及其架构的简单性,这些模型只能以中等性能处理特定任务。

随着 Transformer [13] 等深度学习技术的进步,视觉语言模型 (VLM) 的研究从 2018 年到 2022 年兴起(如图所示)。受自然语言处理领域突破的启发,这些 VLM 通常在各种任务中遵循预训练、微调和预测范式,利用在大型语言或视觉语言数据集上预训练的 BERT [14] 和 CLIP [15] 等基础模型。这些基础模型封装丰富的先验知识,可在各种任务中实现稳健的零样本和迁移学习性能。基于 BERT 等语言基础模型,已经开发出许多方法 [16]–[18],将视觉提取器与语言基础模型相结合,取代早期的循环架构。通过利用大规模语言语料库中嵌入的先验知识,这些方法与传统模型相比取得明显更好的性能。基于 CLIP 等 VLM 基础模型,许多研究旨在通过提示调优 [19]、[20]、视觉适配 [21] 和知识蒸馏 [22]、[23] 等技术将这些先验知识转移到下游任务。尽管取得了这些进步,但大多数方法都是基于判别的,本质上缺乏多任务能力和强大的推理能力。这种限制阻碍 VLM 的进一步发展和更广泛的应用。


随着语言生成模型 [24]、[25] 的兴起,研究人员专注于利用大语言模型 (LLM) 中嵌入的先验知识来开发通用且高度推理的 VLM。利用 LLM 中的指令调整技术 [26],当前的视觉语言大模型 (VLLM) [27] 可以处理通用指令并生成符合人类偏好的响应。具体而言,这些 VLLM(如图所示)使用视觉编码器来 patch 化视觉数据,使用连接器将视觉 tokens 投射到语言空间中,并依靠 LLM 作为解码器来生成遵循指令的答案。这些 VLLM 可应用于通用和专用应用,利用 LLM 的先验知识和序列到序列架构。此外,它们还继承了 LLM 的推理能力,使它们能够处理更复杂的视觉任务。


本综述提供对 VLLM 应用的整体视角,将其分为三个主要方面:从视觉-到-文本、从视觉-到-动作和从文本-到-视觉。每个类别进一步细分为详细的子任务,并进行深入分析,如图所示。此外,还探讨 VLLM 的社会影响,以及它们在不同场景中面临的挑战。最后,基于道德问题,提出一些未来发展有希望的方向,如安全性和隐私性、效率、可解释性和可解释性、复杂推理等。



图像-转-文本

图像-转-文本任务从根本上讲是为模型设计的,用于提取图像特征并将其翻译成人类语言。传统上,CNN 与 RNN 相结合的方法是此任务的主要解决方案。这些模型主要侧重于利用图像的空间信息来生成相应的文本描述。然而,这些方法在处理现实世界图像的复杂性和多变性方面表现出局限性。最近,随着 LLM 的兴起,许多研究探索了利用这些先进模型的强大功能进行图像理解任务。特别是,当与强大的预训练视觉编码器(例如基于 CLIP 或基于 CNN 的架构)相结合时,这些模型显著增强准确和上下文解释和描述视觉内容的能力。这些进步使广泛的应用成为可能,包括图像字幕、视觉问答 (VQA)、视觉对话、指称表情理解 (REC)、指称表情分割 (RES) 和光学字符识别 (OCR) 等一般领域任务,以及特定领域的应用。

1) 通用域应用 :在通用域应用类别中,图像-到-文本模型旨在解决多个视觉理解任务,而不是专注于任何特定领域。传统上,大多数计算机视觉模型都是为解决分类、检测或分割等单一、离散任务而开发的。然而,这些模型在提供能够同时处理多个视觉任务的通用解决方案方面受到限制。最近,在自然语言处理领域,一些大语言模型 (LLM) [24]、[247] 中引入的指令调整范式已被证明是一个游戏规则改变者,开启了一个 LLM 可以管理各种基于文本任务的新时代。这种范式转变也影响了视觉领域,导致了指令调整的视觉 LLM 开发,这些 LLM 能够有效地解释和描述各种任务中的视觉内容,例如图像字幕和 VQA。许多研究 [42]、[44]–[46]、[248]、[249] 率先使用视觉指令调整,在这些任务上取得卓越的表现,并展示其实现更通用、更通用的视觉理解模型潜力。如图所示:


通用能力 。图像字幕、VQA 和视觉对话是大多数视觉语言图像-到-文本模型的基本功能。字幕涉及为视觉数据生成描述性文本解释,而 VQA 则侧重于回答特定问题。视觉对话通过实现关于视觉内容的多轮对话进一步扩展 VQA。目前,几乎所有视觉 LLM 都采用多个训练阶段来开发这些功能。第一阶段称为 预训练 。随后的训练阶段,称为 监督微调

指称表达分割 (RES) 。目标分割是计算机视觉中的一项基本任务,涉及在像素级别定位目标。传统方法通过针对一组预定义的目标来解决此任务。最近,开放词汇表方法变得尤为突出,利用 LLM 根据自然语言描述(称为指称表达)来分割目标。

指称表达理解 (REC) 。REC 是一项关键的计算机视觉任务,涉及基于自然语言描述识别和定位图像中的目标。早期的方法如 Shikra [86] 和 Kosmos-2 [85] 建立在 LLaVA [42] 和 Kosmos-1 [41] 的架构之上,使用指令调整数据集进行定位和指称任务。这些模型将位置坐标表示为文本tokens,由 LLM 生成。另一种方法是利用外部模块进行精确的目标定位,而不是直接从 LLM 生成边框。

光学字符识别 (OCR) 。OCR 是图像转文本任务中的一个重要应用,旨在将各种类型的文档(例如扫描的纸质文档、PDF 或数码相机拍摄的图像)转换为可编辑和可搜索的数据。随着 LLM(尤其是 VLLM)的出现,用户现在可以更有效地与文本丰富的文档进行交互。

检索 。VLLM 中的检索任务侧重于根据给定查询选择和检索相关图像或文本数据,查询可以是视觉的,也可以是文本的。这些任务对于图像-到-文本模型的有效性至关重要,通过弥合视觉和文本模态之间的差距,实现准确且上下文感知的输出。基于检索的方法的最新进展可分为两大类:单阶段检索模型和分层检索增强模型。

2) 特定领域应用 :VLLM 的进步也为各种专业领域的图像转文本应用开辟了新道路。与一般应用所设计的 VLLM 不同,这些特定领域的模型需要在专门的数据集上进行大量训练,或进行独特的结构修改以提高性能。通过将模型与每个领域的复杂需求相结合,它们表现出显著的性能改进,在特定任务中的表现优于一般模型。这种高水平的上下文相关性和模型性能对于解决许多领域的独特挑战至关重要,如图所示,其中包括:


遥感 (RS) 。自然图像和遥感图像之间的固有差异,包括颜色分布、图像分辨率、图像上下文和目标尺度的变化,对在遥感领域任务中使用通用 VLLM 提出重大挑战。这些任务包括遥感字幕 [123]、[273]、[125]、[274]、[275]、[276]、遥感视觉基础 [277]、[278]、[276]、[125]、[274]、[275]、RS-VQA [123]、[277]、[276]、[125]、[274]、[275]、[124] 和遥感图像检索 [273]。为了应对这些挑战,许多研究集中于通过开发专门的遥感数据集来微调用于遥感任务的 VLLM。

医疗 。VLLM 融入医疗领域代表着诊断和治疗规划的重大进步。这些模型利用 VQA 来解释复杂的医学图像 [126]、[279]、[280]、[127]、[281],并生成全面而精确的医疗报告 [282]、[283]、[284]、[128]。

在医学领域,医学视觉问答 (Med-VQA) 是一项基本任务,通过使用 VLLM 分析各种类型的医学图像(例如 CT 扫描、X 光片和皮肤镜检查图像)来增强诊断能力。Med-VQA 涉及从业者与 VLLM 交互以从医学图像中提取特定细节,从而促进交互式诊断支持。

在 Med-VQA 进步的基础上,医疗报告生成 (MRG) 任务通过自动创建综合医疗报告进一步简化了诊断工作流程。Med-VQA 利用 VLLM 提取具体细节并通过交互提供即时诊断支持,而 MRG 则通过生成详细的结构化报告来增强此功能,这些报告突出显示异常并使用 VLLM 提出潜在的诊断。

科学和数学 。除了医学和 RS 领域的应用外,研究人员还将 VLLM 集成到科学领域,以增强学术环境中对图表和图形的理解。科学 VQA [288]、[129]、[289] 是这些集成中普遍存在的评估任务。在更广泛的科学领域中,视觉数学已经成为一个独特的领域,其许多进步显著增强 VLLM 解决复杂数学问题和引入新评估指标的能力。

图形设计和 UI 理解 。在日益数字化的世界中,图形设计在各种数字设备中发挥着至关重要的作用。一些研究成功地将 VLLM 应用于图形相关任务,包括图形设计和 UI 理解。

财务分析 。研究人员还探索了如何在金融分析中使用 VLLM 来解释金融图表并提供有价值的见解。

视频-转-文本

视频-转-文本任务处理高级视频内容理解问题,例如视频字幕、视频问答、视频对话等。输入视频可以是几秒钟内的短视频,也可以是几个小时的长视频。它们可以从历史缓存数据库或实时流媒体平台访问。与图像转文本任务相比,视频转文本任务的挑战性要大得多,因为稀疏的视频内容和抽象的语言信息之间存在很大的语义差距。本着 LLM 的精神,如何将长视频中的稀疏因果信息(例如时间活动演变和物理运动动态)嵌入到密集且可token化的空间中来学习视频 LLM,是一个开放式的研究问题。根据应用目标,分为以下几部分,如图所示:


1) 通用视频理解 :在 LLM 时代,文本语言正在成为对各种视频理解问题进行建模的统一界面。这种趋势导致了许多现有的通用视频 LLM。构建通用模型的基本思路是对数十亿甚至数万亿的视觉文本数据进行大规模模型预训练,预训练阶段为下游的视频理解任务带来可推广的知识。

长视频 LLM 。现有视频 LLM 的常见想法,是使用预训练的 LLM 作为解码器来生成文本响应。这带来了一个重大挑战:如何有效地将长视频编码为视觉tokens并将其投射到文本token空间以供 LLM 解码。

2) 视频对话 :与构建用于一般用途的基础视频转文本模型不同,视频对话引起了人们的极大兴趣,因为语言模型充当了人类的对话智体。然而,这种情况自然需要多轮推理步骤来理解复杂的视频内容,以及人类在长对话环境中的模糊意图。这导致了最近研究视频语言聊天应用程序的趋势。ChatGPT 被普遍认为是一项突破,它成功地使 GPT-4 [309] 等 LLM 适用于复杂的推理任务。

3) 自我中心理解 :对于视频理解任务,大多数应用都侧重于第三人称视角。然而,理解以自我为中心的人类活动对于许多现实世界的应用至关重要。例如,带有以自我为中心的摄像头传感系统的耳机可以帮助工人完成复杂的机械维修工作,因为该系统可以理解人类以自我为中心的视觉世界,并用简单的语言与人类互动。

视觉-到-动作

基于 VLLM 的视觉-到-动作任务主要以图像/视频/深度/3D 等视觉模态作为语言指令调节的视觉输入,VLLM 将生成动作来控制车辆、机器人或软件(例如 API)等的行为。根据应用场景将此类任务分为三大流:自动驾驶 (AD)、具身智能和工具管理。如图所示:这些 VLLM 智体 [319] 凭借 LLM 强大的情境化、推理和泛化能力,在做出决策时将更加智能和通用。


1) 自动驾驶 :最近的 AD 系统从基于规则的系统转变为数据驱动的系统 [320]–[322],其中许多方法都借助 LLM 来获得更好的感知、规划和预测能力。 AD 中 LLM 的视觉输入可以是多种多样且自适应的,例如多视图图像 [166]、视频 [172]、鸟瞰 (BEV) 图 [159] 和激光雷达 [162]、[171],很容易扩展到各种驾驶任务。

感知 。VLLM 在理解任务方面表现出强大的推理能力和零样本能力。此特性还可以扩展到 AD 系统,以提高复杂驾驶环境中的泛化能力 [323]。

规划 。VLLM 可以感知复杂的驾驶场景,并根据当前的视觉特征为驾驶员生成驾驶操作或控制信号。

预测 。VLLM 还可用于预测车辆和行人的轨迹和动作,以协助导航。

2) 具身智能 :具身智能是指旨在控制物理实体并与环境交互的人工智能系统 [326]。这些系统具有认知、决策和控制能力 [327]、[328],常用于机器人领域。由于传统的机器人智体主要专注于一些受限的任务并且缺乏常识性知识,因此基于 LLM 来学习通用下游任务策略的工作越来越多。在这些方法中,基于 VLLM 的智体占了很大一部分,可分为四个流 [329],即感知、操纵、规划和导航。

感知 。基于 VLLM 的机器人可以从 RGB 或 LiDAR 等视觉信号中提取语义知识并理解环境。 OpenEQA [175] 为具体问答感知任务(如物体识别、属性识别、目标定位等)引入了一个新的基准。该基准提出两类问题:通过情景记忆来理解环境的情景记忆任务,以及仅需要导航动作的主动任务。AffordanceLLM、3DVG、3D-LLM 和 PaLM-E 利用 3D 数据来增强感知。在 AffordanceLLM [176] 中,作者提出通过 VLLM 检测目标的交互点 (affordance落地),引入深度信息以更好地捕捉目标的几何形状并提高落地性能。3DVG [177] 通过引入语言-目标关联 (LOC) 模块增强了目标检测和分类能力,该模块通过 VLLM 将 3D 点云几何形状与 2D 图像细节融合在一起。这种多模态融合改善了细粒度目标感知,并扩展了模型在开放词汇场景中的容量。3D-LLM [178] 提出一个将 3D 空间信息集成到 LLM 中的框架,使其能够处理 3D 点云并执行 3D 问答、字幕和导航等任务。类似地,PaLM-E [183] 通过使用 ViT 和以目标为中心的编码器将视觉输入(如图像和 3D 场景表征)集成到语言模型的嵌入空间中,从而改善了具身感知。其他研究利用额外的模块或智体进行感知。 [179] 引入一个多智体 VLLM 框架,该框架具有专门的智体,可减少目标识别和坐标细化中的错误。REPLAN [180] 使用 VLM 感知器,使机器人能够根据视觉数据执行动作,从而实现目标检测和障碍物识别。

操纵 。要制造出能够处理各种下游任务的通用机器人,一项关键技能是能够根据每个任务的具体要求操纵其环境中的目标 [330]。使用 VLLM 可以大大增强这种能力。PaLM-E [183] 将来自智体的图像、状态和语言等连续输入合并到预训练的 LLM(PaLM [331])中,以进行操作规划。RT-X [182] 引入一个庞大而多样化的操作数据集“Open X-Embodiment”,其中包括 527 种技能和 100 多万条真实机器人轨迹,可实现广义策略学习。Instruct2Act [184] 通过使用 LLM 调用现有基础模型的 API,提出了一种免训练方法。基于基础模型的专业知识和 LLM 的推理能力,InstructAct 可以理解复杂的操作任务指令。Roboflamingo [185] 基于现成的 VLLM,它使用策略头学习顺序历史信息,并通过在操作数据集上进行模仿学习进行微调。这样的分解设计使 Roboflamingo 在现实世界中部署时灵活高效。 VoxPoser [3] 提出基于开放集指令和目标来合成机器人操作任务的轨迹。具体来说,提出一种无需训练的方法,利用 LLM 的代码编写能力,通过调用视觉语言模型生成 3D 价值图。Niu [186] 介绍一种基于指令调优的方法 LLARVA,该方法利用结构化提示来完成各种机器人学习任务。他们还证明由中间 2D 表示形成的视觉轨迹有利于协调视觉和动作空间。ManipLLM [187] 旨在通过调优 VLLM,根据文本提示、RGB 图像和深度图预测目标的接触点。Kim [188] 通过在大规模真实世界操作数据集上进行训练,提出一种高效调优的 VLLM,即 OpenVLA。

规划 。在具身智能中,任务规划涉及将高级目标分解为原子子任务,同时考虑真实世界的动态。 NLMap [189] 集成 VLM 和 LLM,使智体能够构建开放词汇可查询的场景表示。它允许机器人识别环境中的相关目标,并生成情境感知目标,从而增强它们在现实环境中执行复杂任务的能力。ELLM [190] 协助目标制定和追求中间目标,促进对环境的有效探索。通过向 LLM 提供目标当前状态的描述,ELLM 生成与上下文相关的目标,引导目标做出与常识相一致的各种行为。LLaRP [191] 集成文本指令和以自我为中心的观察,直接输出动态环境中的动作。这种方法通过学习强化学习策略,增强了智体执行复杂任务的能力。LL3DA [192] 利用人类交互中的文本和视觉提示,直接处理 3D 点云数据。 LL3DA 配备视觉提示,可以增强智体在复杂 3D 环境中理解、推理和规划的能力,从而更有效地执行任务和决策。ConceptGraphs [196] 利用 2D 基础模型和 LLM 中的先验,引入语义丰富的环境 3D 场景图。这种方法通过使智体能够解释场景中复杂的空间和语义关系来增强导航,从而促进路径规划和任务执行期间的有效决策。最后,RILA [197] 利用多模态模型处理感官数据,并指示基于 LLM 的规划器主动探索环境,在导航过程中动态评估和丢弃不准确的感知描述。

导航 。在具身导航领域,当前的 VLLM 结合多种模态来提高动态环境中的导航效率。这些模型集成多模态数据,利用 LLM 的推理能力来处理复杂指令,并在现实环境中准确地避开障碍物 [332]。LM-Nav [193] 结合 LLM(GPT3)、预训练的 VLM(CLIP [15])和视觉导航模型(ViNG [333])来处理复杂的现实世界导航。这种方法使智体能够解读自然语言指令,并执行长距离导航任务,而无需在具有挑战性的户外环境中进行微调。MultiPLY [194] 引入一个模型,使用视觉、听觉、触觉和热数据等多感官输入,实现与 3D 环境的主动交互。通过建立单词、动作和感知之间的关联,这种方法可以在复杂的 3D 设置中执行上下文-觉察动作。EMMA [195] 通过模仿在并行文本世界中运行 LLM 的行为来学习导航视觉环境。通过将视觉观察与文本描述相结合,EMMA 可以有效地将高级导航策略从文本转换为视觉环境,从而显著增强其在复杂的现实场景中规划和执行导航任务的能力。

3) 自动化工具管理 :自动化工具管理的目标是利用成熟的模型自主执行传统上需要人类智能和决策的复杂任务。自动化工具管理的早期工作主要使用纯文本模型。这些模型擅长解释和生成各种应用程序的文本内容,包括编程辅助、解决数学问题和执行简单的逻辑任务。然而,随着任务的复杂性增加,目标是不仅包含文本输入,还包括视觉信号和与物理环境的交互 [335]。

VLLM 与工具管理的集成代表人工智能领域的重大进步。为了系统地理解这种集成,本文提出一种分类法,根据它们的系统架构、集成模式和应用领域对这些发展进行分类。这种分类法不仅组织了现有的方法,而且还提供了对其功能和潜在应用的见解。

动作作为工具 API 。在 VLLM 的背景下,工具通常被概念化并实现为 API。这种方法允许模块化、灵活且可扩展的解决方案,可以根据需要调用不同的功能。

VLLM 规划器管理的常见工具包括:

  1. • 纯视觉模型:这些模型通常包括基于 CNN 的模型和基于 ViT 的模型,有助于将输入或中间视觉信号转换为向量以供进一步处理。

  2. • 视觉语言模型:这些模型包括生成模型(如 VQA 模型)、图像字幕模型、其他 VLLM 和判别式模型(如 CLIP [15]),是理解和响应有关视觉内容的查询的核心工具,有助于规划器支持客户服务、交互式教育等领域的应用程序。

  3. • Web 搜索 API:将 VLLM 与 Web 搜索 API(例如 Google 搜索)集成可增强从大量互联网资源中检索和合成信息的能力,从而使信息检索任务的管理更加高效。

  4. • 库调用:VLLM 可以自动化软件工具和库的使用,从而简化代码生成、软件测试甚至工程和图形中的复杂设计任务。







请到「今天看啥」查看全文