专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

南科大 & 微软亚研院提出VLP | 融合视觉规划以捕捉复杂的环境细节,同时增强整个系统的逻辑连贯性

智驾实验室  · 公众号  ·  · 2024-05-24 15:42

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

大型语言模型(LLMs)和大型多模态模型(LMMs)在各种任务上已经展示了卓越的决策 Mask 能力。然而,它们本质上在语言空间内进行规划操作,缺乏视觉和空间想象力。相比之下,人类在思考过程中会同时使用大脑左右两个半球进行语言和视觉规划。

因此,在这项工作中,作者引入了一种新颖的视觉-语言规划框架,以执行任何形式输入的任务的并发视觉和语言规划。VLP融合了视觉规划以捕捉复杂的环境细节,同时语言规划增强了整个系统的逻辑连贯性。

作者评估了VLP在视觉-语言任务、仅视觉任务和仅语言任务上的有效性。结果显示了VLP表现卓越,表明视觉和语言规划的整合能产生更符合上下文的任务执行效果。

1 Introduction

大规模自回归文本预训练的出现为大型语言模型(LLM)赋予了进行复杂对话和高级认知功能的强大能力。在强大的LLM基础上,开发了大量的多模态大型模型(LMM)和代理来满足多模态用户的需求。这些LMM在各个领域都取得了显著成就,如机器人学、医疗诊断以及游戏。

大多数多模态大型语言模型(LMMs)包含一个可训练的桥接网络,旨在将视觉特征与语言表示对齐,从而使得大型语言模型能够处理视觉和语言标记。最近,像思维链(Chain-of-Thought,CoT)之类的语言规划已经被整合到LMMs中,提供了一种结构化的方法论来将复杂问题分解成更易处理的部分,并实现了一种有序的、逐步推理的方法。这种CoT语言规划已经在小样本和零样本环境中被证明是有效的。

尽管在大型语言模型(LMMs)中语言规划起到了关键作用,但它们在基于视觉的联想推理能力上存在明显的不足,作者将这个过程称为视觉规划。仅靠语言规划可能导致生成的回应与真实世界事件的动态特性无法满意地对齐,因为纯粹的语言描述很难以与视觉图像同样的细致和详尽来描绘真实世界。相比之下,视觉规划可以通过生成预测后续事件的视频,来促进更真实的推理。这种视觉规划与当前LMMs中的视觉分支不同,后者通常将视觉感知信息映射到文本空间,并且仍然依赖于LLMs进行语言推理。

从认知的角度来看,人类的认知依赖于大脑半球的共生运作,左半球主要负责语言和逻辑推理,而右半球则负责空间意识和整体的视觉直观。例如,在解决代数数学难题时,人类往往会借助几何解释来促进推理。当前的LLM(大型语言模型)表现出的功能类似于人类左半球,专门从事语言处理。然而,它们缺乏右半球所固有的视觉认知能力。

基于上述观察,作者提出了一个视觉-语言规划(VLP)框架用于多模态任务。在语言规划方面,VLP利用了一个大型语言模型(如ChatGPT),将输入文本分解为几个步骤,这些步骤有助于回应主要的询问。在视觉规划方面,作者使用大型视觉模型(如Stable Video Diffusion)从当前图像或视频中生成未来的视频序列,最大限度地利用视觉信息进行与实际场景一致的推理。

例如,在图1中,通过观察一位女性喝水并拿着手机的状态,作者生成了后续视频,其中女性将瓶子放下。最终,VLP通过一个大型多模态模型(LMM)整合了语言和视觉规划的成果,并做出最终决策。作者的实验显示了VLP框架在视觉-语言任务、仅视觉任务和仅语言任务中的有效性。

总之,作者的贡献包括以下内容:

  1. 作者提出了视觉-语言规划(VLP),一种通用的多模态推理架构,它不仅涉及语言规划(充当左脑功能),还包括视觉规划(充当右脑功能)。

  2. 作者通过将先进的语言生成模型(如ChatGPT)与视觉生成模型(如Stable Video Diffusion)相结合,来实现视觉-语言处理(VLP),从而使它们能够协作解决复杂问题。

  3. 作者展示了VLP不仅在视觉-语言任务上显著提高了性能,而且在纯视觉和语言任务上也展现了巨大的潜力。

2 Related Work

Large Multi-modality Models

大型语言模型(LLM)已经在对话和推理方面展示了令人印象深刻的能力,这得益于广泛的自动回归预训练方法。在LLM的基础上,一系列大型多模态模型(LMMs)被开发出来,这些模型能够处理视觉和语言输入。大多数开源LMMs采用一种策略,将视觉特征与语言表示对齐,并进行视觉指令调整以提高性能。这些LMMs仅基于文本和图像输入做出决策,这限制了它们的推理能力。相比之下,VLP框架最初同时进行语言和视觉规划,类似于人脑的左右半球。最后,使用LMM进行最终的决策过程。

Planning with Large Language Models

大多数大型语言模型(LLMs)和大型多模态模型(LMMs)在语言方面进行规划。Chain-of-Thought(思维链,CoT)方法已经被确立为一种有效的技术,可以提示LLMs进行顺序推理。零样本CoT证明了提示“让作者一步步思考”可以在不增加额外努力的情况下提升模型的输出。相比之下,少样本CoT采用推理模板,指导LLM以顺序推理格式进行思考。

最近出现的多模态CoT引入了一个两阶段框架,将理由生成与答案推理分离,使后者能够充分利用多模态理性信息。然而,上述工作仅考虑了语言模态中的规划,限制了它们在规划过程中的视觉想象力。最近的研究将LMMs与视频生成模型结合使用,以促进机器人学中的任务规划,其中视频生成模型作为视觉规划的一种形式。然而,这些工作仅关注机器人领域,限制了在开放领域场景的探索。为了解决这个问题,作者设计了一个通用目的的视觉语言规划(VLP)模型,该模型包括语言规划和视觉规划,并在各种下游任务上进行了详细实验,包括视觉语言任务、仅视觉任务和仅语言任务。

Video Generation

最初的视频生成方法使用了生成对抗网络(GANs),但它们在生成高质量视频方面存在限制。扩散模型的出现,以其稳定的训练过程和卓越的生成能力为特点,已导致它们被采用于现代视频生成技术中。其中,Stable Video Diffusion因其跨多个领域强大的文本到视频和图像到视频生成能力而获得认可。

DMVFN通过在视频输入上操作,将视频生成定制到特定应用,如自动驾驶。同时,MCVD创新地 Mask 和重建视频帧,促进视频预测和插值。在作者的视觉语言处理(VLP)框架中,作者集成了一个视频生成模型,以增强推理过程中视觉方面。

3 Vision-Language Planning

Framework Overview

如图2所示,作者的视觉-语言处理(VLP)系统处理不同模态的用户 Query ,包括纯语言任务、纯视觉任务以及视觉-语言任务。对于纯语言任务,采用语言到视觉(L2V)模型将语言 Query 转换为相应的视觉内容,如图片或视频。相反,对于纯视觉任务,使用视觉到语言(V2L)模型生成相关的语言描述。因此,无论用户 Query 采用何种模态,VLP都能获取到视觉输入 和语言输入

视觉输入 经过视觉规划分支的处理,产生视觉规划结果 。采用视频生成扩散模型来合成构成视觉计划的未来帧,随后使用粗略和精细选择器来挑选可能对当前任务有益的帧。语言输入 由LLM(大型语言模型)处理以生成语言计划 。最后,决策者根据视觉计划 和语言计划 做出最终决策。

Vision Planning

视觉规划生成器(VPG) 。视觉输入表示为 ,其中 表示输入图像的数量。 意味着作者输入了一张图像,而 表示视觉输入是一个视频。然后应用一个视觉规划生成器(VPG) 来生成未来的帧

在以下文本中, ,而 表示生成的图像数或视觉规划步骤的数量。如果输入为图像( ),则视频扩散模型 是一个图像到视频的模型;如果输入为视频( ),则 是一个视频预测模型。

视觉规划选择器(VPS)。尽管视觉规划生成(VPG)能够产生潜在有用的未来帧,但直接使用它们可能会导致以下问题:

  1. 作者注意到并非所有问题都与未来状态有关,在这种情况下,包含生成的帧可能会引入无关的噪声。
  2. 此外,视频生成模型的局限性可能导致在生成内容中产生伪影和多余的帧。

为了解决上述问题,作者采用了一个包含两个模块的视觉规划选择器(VPS):

  1. 粗选器(CS),以确定当前任务是否需要生成的视频帧。
  2. 细选器(FS),以确定如果当前任务需要生成的帧,应该选择哪些帧以帮助解决问题。

对于粗选器(CS),作者简单地向ChatGPT添加提示_[这个问题是关于潜在未来行为或替代状态的吗?]_,这样它就会输出“是”或“否”,以判断语言 Query 是否应该使用生成的帧。对于精选器(FS),它在原始输入 和生成的帧 中选择对 Query 有用的帧,作为最终的视觉计划 。FS将视频作为输入,并为每帧分配选择分数,这样作者可以选择分数最高的前 帧以形成最终的视觉计划

具体来说,对于每一帧,FS首先通过CLIP视觉编码器提取视觉特征。然后,通过一个Q-former生成视觉 Query 特征,并将其与文本提示[帧内的信息是否提供了准确回答给定问题的必要细节]连接起来。最后,一个大型语言模型(LLM)将视觉和文本标记作为输入,作者使用标记“Yes”的输出概率作为该帧的选择分数。最终的视觉计划







请到「今天看啥」查看全文