面向通用机器人的基础模型：综述和综合分析

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-05-16 00:11

正文

综述论文“ Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis“，来自CMU、博世AI、SAIR实验室（空域AI和机器人）、乔治亚理工、Meta FAIR、UCSD和谷歌DeepMind。

首先概述传统机器人系统的构成以及使其普遍适用的基本障碍。接下来，建立一个分类法来讨论当前的工作，探索如何利用现有的机器人基础模型，并开发适合机器人的模型。最后，讨论用基础模型来实现通用机器人系统的主要挑战和有希望的未来方向。

用“机器人基础模型”一词来涵盖两个不同的方面：（1）将现有（主要）视觉和语言模型应用于机器人，主要是通过零样本和上下文学习；(2) 用机器人生成的数据，开发和利用专门用于机器人任务的机器人基础模型。如图总结了本文的主要组成部分。

随着大语言模型（ LLM ）和视觉语言模型（VLM ）的出现，人们提出了几种基于视觉的基础模型（VFM） [20-22, 132]。由于它们在像素和目标级别上炫目的域不变性和语义属性[133-137]，已被广泛应用于下游被动感知任务。此外，这些重大进步是通过自监督 [133] 和/或大规模数据管理 [21, 22] 实现的。

自监督 VFM 系列可大致分为以下三个子类：(1) 联合嵌入预测架构（ JEPA ）[138]，(2) 基于对比学习的方法 [53, 139]，(3) 掩码Autoencoder（ MAE ）[132]，JEPA 采用 Your Own Latent（ BYOL ）[140]风格的自监督技术，其中主要监督信号是预测不同图像增强的相似嵌入。在JEPA 方法中，最著名的是 DINO [20]、 DINOv2 [22]、 I-JEPA [141] 和 MC-JEPA [142]。这些基于联合嵌入的方法捕获了更长期的全局模式和面向形状的特征[133, 134]。另一方面，基于对比学习的方法利用多模态数据，弱监督学习不同模态的共同潜空间。值得注意的方法包括 CLIP [53]，它使用大规模图像-字幕对。除了这两类之外，MAE [132] 还组成了另一类模型，经过训练重建掩码输入作为一个借口任务。这些模型捕获局部token级语义上下文，导致在语义分割等密集预测问题上的广泛应用[133, 134]。

通过仔细管理大型数据集而启用的两个著名的 VFM 是 SAM [21]和 DINOv2 [22]。 SAM 利用基于迭代模型预测的管理流程获得 10 亿个语义分割掩码，用于监督学习。事实证明，基于大规模精选数据进行训练的 SAM 模型在广泛的领域中表现出了不错的实例分割性能。同样， DINOv2 [22] 是一个自监督模型，用基于模型预测的精选数据（包含 1.42 亿张图像）进行训练。事实证明，这种对精选数据的大规模自监督使 DINOv2 能够比专门训练的模型和对比零样本模型（例如 CLIP）表现得更好，同时展示出很好的语义一致性。

由于扩散模型（DM）的进步，文本条件图像生成模型最近因其直接从语言提示生成新高保真图像的惊人能力而引起了极大的关注[143]。 GLIDE [144] 是一种文本条件扩散模型，具有 CLIP 指导和无分类器指导。 DALLE-2 [18] 提出了一种两步扩散模型，该模型由先验模型和解码器组成，先验模型在给定文本字幕的情况下生成 CLIP 图像嵌入，解码器生成以编码图像嵌入为条件的图像。 IMAGEN [19] 是另一种具有无分类器指导的文本条件扩散模型。与之前的方法不同，它提出了动态阈值处理来生成更加真实的图像，并提出了 U-Net 结构来使训练更加高效。本文对这种基础模型命名为视觉内容生成模型（VGM）。

大语言模型（LLM）是一种语言模型，以其能够用最少的特定任务训练数据处理各种语言任务而著称，这使其有别于传统的人工智能模型[145]。术语“大”指的是模型大小和数据集大小。此外，语言意味着模型是在互联网规模上使用单一模态（即文本）进行训练的。LLM 的关键发展是 Transformer 架构的引入，由于 Transformer 的高度并行特性，使得大规模数据的高效训练成为可能，使得扩展文本序列的处理更加高效。有两条工作线建立在 Transformer 架构之上：生成式预训练 Transformer ( GPT ) 系列 [17, 146] 和 Transformers 双向编码器表征 ( BERT ) 系列 [147]。GPT 被训练为解码器，其任务是预测序列中的下一个单词，而 BERT 被训练为编码器，专注于理解句子之间的上下文关系。另一种对 GPT-3.5 模型（ChatGPT）等模型的成就做出贡献的技术是人类反馈强化学习（RLHF）的范式[149]。该技术将Transformer的输出与通过逆强化学习学到的人类偏好相结合，使模型能够产生更接近人类和更流畅的句子。

然而，LLMs的局限性仍然很大，特别是他们倾向于产生看似合理的成果。此外，由于仅接受单一文本模态训练的限制，LLMs缺乏对现实世界目标的参考，因此无法准确回答诸如“我可以将这个西瓜放入搅拌机吗？”之类的问题。缺乏空间基础的问题对于LLMs在机器人领域的应用尤为重要。因此，最近的研究开始将额外的信息源（例如视觉）集成到Transformer架构中。

视觉语言模型（VLM）代表了生成模型的另一个重大进步。这些模型在需要理解视觉内容和语言的任务中表现出色，例如开放集图像分类[53]、目标检测[150]和分割[151]、视觉问答（VQA）[152]等。模型利用大规模数据集和复杂的神经网络架构（通常是Transformer的变体）来学习图像与其文本描述或查询之间的相关性。这种方法能够在没有特定任务训练的情况下执行一系列任务，展示出不错的泛化能力。根据预训练方法，它们可以大致分为两大类：对比学习模型和生成预训练模型。

基于对比学习的模型，如 CLIP [53] 和 ALIGN [153]，经过训练，使匹配图像文本对的表示在嵌入空间中更接近，同时将非匹配对分开，可以理解图像和文本之间的对应关系。例如，CLIP 能够理解细致入微的文本描述及其相应的图像，因此在各种视觉分类任务中表现出色。类似地，ALIGN 专注于对齐大规模图像-文本对，显着提高图像字幕和视觉问答等任务的性能。ViLBERT [152] 和 VL-BEiT [154] 等生成预训练模型采用与 LLM 类似的训练方法。

结合这两种方法的优点， Flamingo [155] 结合了一个大型冻结语言模型，保留了预训练语言模型固有的上下文中小样本学习能力。相反， GIT [156] 采用大型对比预训练图像编码器，并伴有相对较小的文本解码器。Flamingo 和 GIT 都首先通过对比学习预训练图像编码器，然后进行生成预训练。

最近， BLIP [157] 和 BLIP-2 [158] 已成为 VLM 中的变革模型，引入了一种课程学习策略，从更简单的任务引导到更复杂的任务，显着提高图像字幕和视觉问答等任务的性能。最新的 GPT 迭代版，GPT-4 [159] 引入了处理文本和视觉输入的功能。然而，这些多模态功能的技术细节和范围尚未发布。总的来说，这些模型体现了 VLM 的快速进步，每个模型都有助于多模态系统在理解和基于视觉数据生成类人响应方面的鲁棒性和适应性。

视觉和语言模态的结合揭示了自监督学习的巨大潜力。因此，很自然地超越视觉和语言，开发具有更多模态的新基础模型。这些模型被称为大型多模态模型 (LMM) 。附加模态丰富多样，例如结合图像、文本、深度、热和音频的模型，例如 ImageBind [139]；结合文本、图像、视频和音频的模型，例如 NExT-GPT [160] 和 Audio-GPT [161]；结合语言文本和音频的模型，例如 SpeechGPT [162]；以及将点云与视觉和语言相结合的模型，例如 ULIP [163]。这些 LMM 使用不同的训练方法，例如对比预训练 [139] 或通过学习输入/输出预测来微调 LLM [160]。这些 LMM 中显示的对比学习方法与 LLM 非常相似，因为不同模态的嵌入彼此一致。这些基于多模态对比学习的方法可以实现跨模态检索，并带来更有趣的应用，例如音频到图像生成等。

在机器人学领域的挑战问题可以如下图分类：

模块化的机器人策略，应用视觉和语言基础模型来服务于单个机器人功能，例如，应用 VLM 作为开放式机器人感知模块，然后将其“插入”与运动规划器和下游控制器一起工作 [25]。由于此类基础模型以零样本方式应用，因此在应用基础模型的模块与机器人系统中的其他模块之间不存在梯度流。相反，端到端的可微性方法，模糊了典型机器人模块的边界（例如，感知和控制 [27, 195]），一些机器人学的基础模型甚至提供一个统一的模型来执行不同的机器人功能 [30, 31]。

1 机器人学采用的基础模型

如图是一些感知应用的例子：

还有一个应用是内容生成，以及提示对规划和控制的增强。

2 机器人学的基础模型（RFM）

随着真实机器人状态-动作对机器人数据集数量的增加，机器人学基础模型（RFM）类越来越可行[28,29,176]。这些模型的特点是使用机器人数据来训练，解决机器人任务。一是在一个机器人模块中执行一组任务的 RFM，定义为单一用途机器人的基础模型。例如，可以生成低级动作来控制机器人的 RFM，或者可以生成高级运动规划的模型。二是在多个机器人模块中执行任务的 RFM，可以执行感知、控制甚至非机器人任务的通用模型 [30, 31]。

如图是一些RFM例子：

面向通用机器人的基础模型：综述和综合分析

正文

请到「今天看啥」查看全文