专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
掌上春城  ·  昆明人注意!明早,请提前出门! ·  7 小时前  
昆明信息港  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  8 小时前  
掌上春城  ·  突发悲剧!举重冠军被杠铃压脖身亡 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

面向通用机器人的基础模型:综述和综合分析

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-16 00:11

正文

综述论文“ Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis“,来自CMU、博世AI、SAIR实验室(空域AI和机器人)、乔治亚理工、Meta FAIR、UCSD和谷歌DeepMind。

构建在任何环境、任何目标上无缝操作的通用机器人,并用各种技能完成不同的任务,一直是人工智能领域的长期目标。 然而不幸的是,大多数现有的机器人系统都受到限制——它们是为特定任务而设计、在特定数据集上进行训练并在特定环境中部署的。 这些系统通常需要广泛标注的数据,依赖于特定于任务的模型,在现实场景中部署时存在许多泛化问题,并且很难对分布变化保持鲁棒性。 受自然语言处理(NLP)和计算机视觉(CV)等研究领域中网络规模、大容量预训练模型(即基础模型)炫目的开放集性能和内容生成能力的推动,该综述旨在探索 (i) 如何将 NLP 和 CV 的现有基础模型应用于机器人领域,并探索 (ii) 机器人特定的基础模型是什么样子。

首先概述传统机器人系统的构成以及使其普遍适用的基本障碍。接下来,建立一个分类法来讨论当前的工作,探索如何利用现有的机器人基础模型,并开发适合机器人的模型。最后,讨论用基础模型来实现通用机器人系统的主要挑战和有希望的未来方向。

用“机器人基础模型”一词来涵盖两个不同的方面:(1)将现有(主要)视觉和语言模型应用于机器人,主要是通过零样本和上下文学习;(2) 用机器人生成的数据,开发和利用专门用于机器人任务的机器人基础模型。如图总结了本文的主要组成部分。

本文的总体结构如图所示。

介绍一下基础模型。

随着 大语言模型( LLM ) 视觉语言模型(VLM ) 的出现,人们提出了几种 基于视觉的基础模型(VFM) [20-22, 132]。由于它们在像素和目标级别上炫目的域不变性和语义属性[133-137],已被广泛应用于下游被动感知任务。此外,这些重大进步是通过自监督 [133] 和/或大规模数据管理 [21, 22] 实现的。

自监督 VFM 系列可大致分为以下三个子类:(1) 联合嵌入预测架构( JEPA )[138],(2) 基于对比学习的方法 [53, 139],(3) 掩码Autoencoder( MAE )[132],JEPA 采用 Your Own Latent( BYOL )[140]风格的自监督技术,其中主要监督信号是预测不同图像增强的相似嵌入。在JEPA 方法中,最著名的是 DINO [20]、 DINOv2 [22]、 I-JEPA [141] 和 MC-JEPA [142]。这些基于联合嵌入的方法捕获了更长期的全局模式和面向形状的特征[133, 134]。另一方面,基于对比学习的方法利用多模态数据,弱监督学习不同模态的共同潜空间。值得注意的方法包括 CLIP [53],它使用大规模图像-字幕对。除了这两类之外,MAE [132] 还组成了另一类模型,经过训练重建掩码输入作为一个借口任务。这些模型捕获局部token级语义上下文,导致在语义分割等密集预测问题上的广泛应用[133, 134]。

通过仔细管理大型数据集而启用的两个著名的 VFM 是 SAM [21]和 DINOv2 [22]。 SAM 利用基于迭代模型预测的管理流程获得 10 亿个语义分割掩码,用于监督学习。事实证明,基于大规模精选数据进行训练的 SAM 模型在广泛的领域中表现出了不错的实例分割性能。同样, DINOv2 [22] 是一个自监督模型,用基于模型预测的精选数据(包含 1.42 亿张图像)进行训练。事实证明,这种对精选数据的大规模自监督使 DINOv2 能够比专门训练的模型和对比零样本模型(例如 CLIP)表现得更好,同时展示出很好的语义一致性。

由于扩散模型(DM)的进步,文本条件图像生成模型最近因其直接从语言提示生成新高保真图像的惊人能力而引起了极大的关注[143]。 GLIDE [144] 是一种文本条件扩散模型,具有 CLIP 指导和无分类器指导。 DALLE-2 [18] 提出了一种两步扩散模型,该模型由先验模型和解码器组成,先验模型在给定文本字幕的情况下生成 CLIP 图像嵌入,解码器生成以编码图像嵌入为条件的图像。 IMAGEN [19] 是另一种具有无分类器指导的文本条件扩散模型。与之前的方法不同,它提出了动态阈值处理来生成更加真实的图像,并提出了 U-Net 结构来使训练更加高效。本文对这种基础模型命名为 视觉内容生成模型(VGM)

大语言模型(LLM) 是一种语言模型,以其能够用最少的特定任务训练数据处理各种语言任务而著称,这使其有别于传统的人工智能模型[145]。术语“大”指的是模型大小和数据集大小。此外,语言意味着模型是在互联网规模上使用单一模态(即文本)进行训练的。LLM 的关键发展是 Transformer 架构的引入,由于 Transformer 的高度并行特性,使得大规模数据的高效训练成为可能,使得扩展文本序列的处理更加高效。有两条工作线建立在 Transformer 架构之上:生成式预训练 Transformer ( GPT ) 系列 [17, 146] 和 Transformers 双向编码器表征 ( BERT ) 系列 [147]。GPT 被训练为解码器,其任务是预测序列中的下一个单词,而 BERT 被训练为编码器,专注于理解句子之间的上下文关系。 另一种对 GPT-3.5 模型(ChatGPT)等模型的成就做出贡献的技术是人类反馈强化学习(RLHF)的范式[149]。该技术将Transformer的输出与通过逆强化学习学到的人类偏好相结合,使模型能够产生更接近人类和更流畅的句子。

然而,LLMs的局限性仍然很大,特别是他们倾向于产生看似合理的成果。此外,由于仅接受单一文本模态训练的限制,LLMs缺乏对现实世界目标的参考,因此无法准确回答诸如“我可以将这个西瓜放入搅拌机吗?”之类的问题。缺乏空间基础的问题对于LLMs在机器人领域的应用尤为重要。因此,最近的研究开始将额外的信息源(例如视觉)集成到Transformer架构中。

视觉语言模型(VLM) 代表了生成模型的另一个重大进步。这些模型在需要理解视觉内容和语言的任务中表现出色,例如开放集图像分类[53]、目标检测[150]和分割[151]、视觉问答(VQA)[152]等。模型利用大规模数据集和复杂的神经网络架构(通常是Transformer的变体)来学习图像与其文本描述或查询之间的相关性。这种方法能够在没有特定任务训练的情况下执行一系列任务,展示出不错的泛化能力。根据预训练方法,它们可以大致分为两大类:对比学习模型和生成预训练模型。

基于对比学习的模型,如 CLIP [53] 和 ALIGN [153],经过训练,使匹配图像文本对的表示在嵌入空间中更接近,同时将非匹配对分开,可以理解图像和文本之间的对应关系。例如,CLIP 能够理解细致入微的文本描述及其相应的图像,因此在各种视觉分类任务中表现出色。类似地,ALIGN 专注于对齐大规模图像-文本对,显着提高图像字幕和视觉问答等任务的性能。ViLBERT [152] 和 VL-BEiT [154] 等生成预训练模型采用与 LLM 类似的训练方法。

结合这两种方法的优点, Flamingo [155] 结合了一个大型冻结语言模型,保留了预训练语言模型固有的上下文中小样本学习能力。相反, GIT [156] 采用大型对比预训练图像编码器,并伴有相对较小的文本解码器。Flamingo 和 GIT 都首先通过对比学习预训练图像编码器,然后进行生成预训练。

最近, BLIP [157] 和 BLIP-2 [158] 已成为 VLM 中的变革模型,引入了一种课程学习策略,从更简单的任务引导到更复杂的任务,显着提高图像字幕和视觉问答等任务的性能。最新的 GPT 迭代版,GPT-4 [159] 引入了处理文本和视觉输入的功能。然而,这些多模态功能的技术细节和范围尚未发布。总的来说,这些模型体现了 VLM 的快速进步,每个模型都有助于多模态系统在理解和基于视觉数据生成类人响应方面的鲁棒性和适应性。

视觉和语言模态的结合揭示了自监督学习的巨大潜力。因此,很自然地超越视觉和语言,开发具有更多模态的新基础模型。这些模型被称为 大型多模态模型 (LMM) 。附加模态丰富多样,例如结合图像、文本、深度、热和音频的模型,例如 ImageBind [139];结合文本、图像、视频和音频的模型,例如 NExT-GPT [160] 和 Audio-GPT [161];结合语言文本和音频的模型,例如 SpeechGPT [162];以及将点云与视觉和语言相结合的模型,例如 ULIP [163]。这些 LMM 使用不同的训练方法,例如对比预训练 [139] 或通过学习输入/输出预测来微调 LLM [160]。这些 LMM 中显示的对比学习方法与 LLM 非常相似,因为不同模态的嵌入彼此一致。这些基于多模态对比学习的方法可以实现跨模态检索,并带来更有趣的应用,例如音频到图像生成等。

在机器人学领域的挑战问题可以如下图分类:

当前机器人学基础模型的研究方法可以如图进行分类: 机器人学采用的基础模型(视觉-语言)和机器人学的基础模型。 对于机器人技术中使用的基础模型,主要强调以零样本方式使用的视觉和语言基础模型的应用,这意味着不进行额外的微调或训练。 然而,本文主要关注的是机器人学的基础模型,可以通过视觉语言预训练初始化来热启动模型和/或直接在机器人数据集上训练模型。

典型的机器人系统由感知、规划和控制模块组成。将运动规划和控制结合成一个整体——动作生成,并将运动规划模块视为较高级,将控制视为较低级的动作生成。视觉和语言基础模型的某些应用贯穿这些机器人模块,例如,这些模型在机器人技术中的落地,以及从 LLM 和 VLM 生成数据。鉴于当前LLMs的自回归性质,经常要努力应对扩展的任务。因此,高级 提示 方法改善这种限制并增强规划能力。

模块化的机器人策略,应用视觉和语言基础模型来服务于单个机器人功能,例如,应用 VLM 作为开放式机器人感知模块,然后将其“插入”与运动规划器和下游控制器一起工作 [25]。由于此类基础模型以零样本方式应用,因此在应用基础模型的模块与机器人系统中的其他模块之间不存在梯度流。相反,端到端的可微性方法,模糊了典型机器人模块的边界(例如,感知和控制 [27, 195]),一些机器人学的基础模型甚至提供一个统一的模型来执行不同的机器人功能 [30, 31]。

1 机器人学采用的基础模型

如图是一些感知应用的例子:

如图是任务级规划的例子:

如图是运动规划和动作生成的例子:

“落地(grounding)”的概念指将上下文含义与信号或符号相关联的能力,例如将一个单词与其在世界中的表现联系起来的能力。 人类通过音频(单词、语气)和视觉信号(手势、行为、肢体语言)来理解语义概念。 本文“落地“指的是将基础模型所拥有的抽象知识与机器人技术有形的、现实世界细节相结合的过程——确保语言驱动的决策有意义地对应物理行为和环境背景。 例如,如果要求LLMs制定一个规划,在没有任何环境信息的情况下在特定的房子里找到一支笔,那么这个任务就类似于盲人推理如何在未知的空间中导航,使得几乎不可能的任务得以完成。 类似地,虽然LLMs可以建议“用左手抓住左把手,用右手抓住右把手,然后抬起”来轻松制定举起椅子的规划,但如果现实世界的模型具身是一个典型的、仅配备一只手臂的机器人,则该规划将变得不切实际。 由于“落地”本身就是一个很大的领域,因此并不需要涵盖所有内容; 相反,将讨论如图所示的四个概念: (1)将语言落地于环境; (2) 将潜概念落地于环境; (3) 将语言落地于具身; (4)将潜概念落地于具身。

将语言落地于环境和具身的主要优点是无需额外训练即可轻松实现零样本学习。 然而,这存在重大缺陷。 对于无法用语言描述的概念,例如手指运动的细微差别,落地于具身可能会失败。 此外,对一组固定技能库的依赖限制了对不同环境的适应性。 因此,直接基于潜概念空间似乎是一个更可行的解决方案。 利用交互数据[234]或专家数据[28]的方法在应对这些挑战方面都显示出了有希望的结果。

还有一个应用是内容生成,以及提示对规划和控制的增强。

2 机器人学的基础模型(RFM)

随着真实机器人状态-动作对机器人数据集数量的增加, 机器人学基础模型(RFM) 类越来越可行[28,29,176]。这些模型的特点是使用机器人数据来训练,解决机器人任务。一是在一个机器人模块中执行一组任务的 RFM,定义为单一用途机器人的基础模型。例如,可以生成低级动作来控制机器人的 RFM,或者可以生成高级运动规划的模型。二是在多个机器人模块中执行任务的 RFM,可以执行感知、控制甚至非机器人任务的通用模型 [30, 31]。

如图是一些RFM例子:

下表是基础模型如何解决机器人学挑战的方法总结:

实验的综合分析如下表所示:







请到「今天看啥」查看全文