RoboMM：用于机器人操作的一体化多模态大模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-25 00:07

正文

24年12月来自美团的论文“RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation”。

近年来，机器人技术通过整合更大的模型和大规模数据集取得了长足的进步。然而，将这些模型应用于 3D 空间交互和管理数据收集成本方面仍然存在挑战。为了解决这些问题，提出多模态机器人操作模型 RoboMM 以及综合数据集 RoboData。RoboMM 通过相机参数和占用监督增强 3D 感知。它以 OpenFlamingo 为基础，结合了模态-隔离-掩码和多模态解码器模块，改善了模态融合和细粒度感知。RoboData 通过整合几个著名的数据集提供了完整的评估系统，实现了多视角图像、相机参数、深度图和动作的首次融合，空间对齐有利于从不同的机器人数据集中进行全面学习。配备了 RoboData 和统一的物理空间，RoboMM 是一种通用策略，可以同时评估多个数据集内的所有任务，而不是专注于有限的数据或任务选择。其设计显著提高了机器人的操作性能，将 CALVIN 上的平均序列长度从 1.7 提高到 3.3，并确保了跨具身能力，在多个数据集上取得了最先进的结果。

如图所示：左图 RoboData 集成九个多样而复杂的数据集（CALVIN [41]、Meta-World [65]、LIBERO [34]、Robomimic [39]、RoboCAS [68]、ManiSkill2 [21]、RoboCasa [47]、RLBench [26] 和 Colosseum [52]），涵盖各种机器人实施方案、环境和任务类型。标准化的输入和输出空间实现统一的数据集。右图 RoboMM 具有全面的 3D 环境感知能力、灵活多样的多模态输出，并显著增强机器人操控泛化能力。

近年来，机器学习经历了深刻的进步，从 CLIP [53, 67] 的问世到 GPT 系列 [1, 8, 9]、Llama [59, 60]、LLaVA [37] 和 Flamingo [2, 3] 等基础模型的发展。这些进步很大程度上归功于更大的基于 Transformer 架构和“互联网规模”数据集的利用 [11, 13, 14, 36]。这些创新不仅拓展了自然语言处理 [16] 和计算机视觉 [22, 54] 的前沿，而且还激励研究人员将这些模型集成到具身人工智能 (EAI) [49] 中，从而实现现实环境中更复杂、更多样化的任务。

在建模方面，人们逐渐从单任务或单数据集学习 [42, 57, 67] 转向迁移学习方法 [7, 25, 30, 35, 58, 61]。这些模型利用在大量“互联网规模”数据集或多种数据源上进行预训练的稳健基础模型。随后，它们在特定的机器人数据集上进行微调，以产生精确的控制动作。在数据方面，研究人员通过各种方式收集数据来增强模型。例如，Open X-Embodiment [51] 合并包含视觉-语言-动作对的不同数据集，而 RH20T [18] 通过遥操作收集数据。尽管这些努力具有令人印象深刻的稳健性，但它们在实际应用中仍然面临重大挑战。

首先，将多模态模型直接应用于 EAI 是最佳解决方案吗？机器人必须与物理 3D 空间交互；然而，目前的多模态模型主要侧重于二维图像的理解和生成，这可能会限制其实际应用。其次，解决数据集构建的成本和效率问题是否必不可少？例如，从 RT-1 [6] 收集大约 130,000 个事件需要 17 个月。因此，必须尽可能多地整合行业现有的多平台、多机器人数据集，以解决这一紧迫问题。

机器人数据集。在机器人研究的早期阶段，通常需要为每个机器人、任务和环境收集特定的数据集，例如 RLBench [26] 和 CALVIN [41]。虽然这些数据集高度定制且质量很高，但数量有限且泛化能力较差。为了进一步提高模型性能和泛化能力，研究人员通过遥操作方法收集了大量数据，例如 RT-1 [6] 和 RH20T [18]。这些大规模数据集涵盖了更多的场景和任务，支持多任务学习，但也带来了高昂的数据注释成本。随着研究的进展，已经提出了集成多个数据集的方法，例如 Open X-Embodiment [51] 和 DROID [28]，通过合并来自不同来源的数据来提高模型泛化和数据利用效率。然而，这些方法也面临数据不一致和潜在偏差的问题。

机器人策略。以前的研究，如 R3M [46]、VC-1 [38]、ACT [67] 和 HULC++ [42] 通常采用具有少量参数的策略。后续模型，如 RoboFlamingo [33]、Corki [25] 和 RoboUniView [35] 都建立在多模态大型模型上，但仅在有限的数据集上进行了微调。尽管多任务学习和小样本学习取得了进展，但最近的模型（如 RT-X [51]、Octo [58]、HPT [61]、CrossFormer [17]、GR-2 [10] 和 OpenVLA [30]）已经在各种数据集上训练了视觉-语言-动作机器人策略。然而，这些工作通常对来自真实机器人 [18, 28]、人类视频 [20, 46] 和模拟域 [41, 68] 的数据进行预训练，忽略了物理空间的均匀性，并且仅在特定数据集上进行微调后才能获得良好的性能。鉴于机器人在 3D 物理环境中运行，它们的感知和交互能力必须集成 3D 感知，类似于自动驾驶系统的要求。

多模态大型语言模型 (MLLM) 通常由三个主要组件组成：模态编码器 (Enc)、适配器 (Adapter) 和大型语言模型 (LLM)，数学表示如下：

这里 WE 表示词嵌入层。模态编码器将单模态输入转换为适当的表示。例如，图像编码器从输入图像 I 中提取特征 F/I。常见的视觉编码器（如 CLIP [53]）在图像-文本对上进行预训练，对齐视觉和文本语义，以便于与 LLM 集成。适配器将视觉和其他模态的特征映射到 LLM 可以理解的输入 U。例如，Blip2 [32] 使用 Q-Former 进行特征交互；LLaVA [37] 使用 MLP 将视觉特征与文本特征对齐。大语言模型是框架的核心组件，本文称为特征融合解码器。它通常采用自回归模型，例如 LLaMA [59] 或 GPT [1]，以及交叉注意模型，例如 Flamingo [2] 或 LLaMA3.2 [44]。该模型将特征表示 U 与从词嵌入层提取的文本特征 F/T 融合，生成最终的文本输出 O/T 。这种特征集成增强模型生成上下文相关响应的能力。

网络架构

如图所示RoboMM 的架构。视觉编码器模块用于提取多视图特征，适配器模块利用占用监督来统一特征并增强空间感知，基于 LLM 的特征融合模块用于合并文本和视觉信息，多模态解码器模块通过多模态输出增强细粒度感知和理解。

对于基于语言指令 T 的机器人操作任务，通常依赖于来自 N 个视角的 H 个时间步历史帧 I，该任务可以用数学表示为 O/A = Θ(I, T)。本文结合MLLM的原理，提出一种新型的原生多模态机器人操作模型 RoboMM，该模型具有 3D 环境感知能力，可处理多模态输入（文本T、视觉I、相机参数Cam）和输出（动作O/A、图像O/I、占用O/o）：

RoboMM由以下关键组件组成：（1）视觉编码器模块：用于从H个时间步长和N个视角提取观察特征F^h,n/I。（2）3D 感知适配器模块：通过集成相机参数增强物理空间感知。（3）基于大语言模型的特征融合解码器：融合文本和视觉信息以输出多模态特征，并使用模态-隔离-掩码（MIM）增加模态融合的灵活性。（4）多模态解码器模块：通过多模态输出增强模型的细粒度感知和理解。值得注意的是，由于 MIM，O/I、O/o 是可选输出。

适配器：用 RoboUni-View [35] 中的 UVFormer，这是一个简单但功能强大的 3D 环境感知模型。UVFormer 将图像特征 X^h = {F^h, n/I}、相机参数 Cam^h ={Cam^h,n} 和可学习的统一视图查询 Q 作为输入，并输出统一视图表示 U^h/I：

这里，Q = {Pos,Emb}，Pos 和 Emb 分别表示查询的位置和可学习的特征。L、B 和 P 定义机器人操作空间内 3D 网格的空间形状。具体而言，Emb/l,b 负责统一视图空间中相应的pillar单元区域。U^h/I 是统一视图表示，包含 L × B × P 3D 网格中的所有相关信息。

特征融合解码器：由于需要支持多帧或视频输入，放弃 LLaVA [36]中使用的自回归（AR）机制，采用OpenFlamingo [3]和交叉注意作为特征融合解码器。它通过交叉注意层将统一的视觉表示与语言和其他模态占位符集成在一起。

（a）为了支持多模态输出，我们首先构建文本序列T′，其中包括文本和多模态读出tokens：

这里，T'，T/simg，T/gimg，T/occ，T/act分别代表静态图像，手腕图像，占用和动作的读出tokens。L^h 表示T^h的长度。T/img用于指示原始图像的位置。T/simg，T/gimg，T/occ各使用8个tokens。然后，将构建的文本序列输入到词嵌入层以获得文本特征：

(b) 注意融合：继续使用 OpenFlamingo [3] 中的交叉注意，融合视觉和文本特征，其中文本特征 F^h/T 作为查询，视觉特征 U^h/l 作为 K 和 V。值得注意的是，自注意层结合了 MIM，它允许使用辅助模态监督进行训练并在推理过程中省略不必要的模态，从而显著提高模态融合的灵活性。

多模态解码器：设计了不同的解码器模块来适应各种模态。如图所示多模态解码器概述。（a）图像解码器，（b）占用解码器，（c）动作解码器。每个解码器通过一系列多层感知器 (MLP)、注意机制和卷积神经网络 (CNN) 处理输入特征，以生成适当的输出表示。

(a) 图像解码器：设计一个包含 2 个注意解码器层的简单结构。此结构输出图像块，然后根据其坐标将其组装成完整图像（静态图像 O^h/simg 或手腕图像 O^h/gimg）。

(b) 占用解码器：此结构的初始部分类似于图像解码器，生成特征 U^h/occ 。然后，对 U^h/occ 进行重塑、上采样并通过 3D 卷积处理以重建整个 3D 占用 O^h/o = {o^h/pos, o^h/rgb}。灵活的模型架构允许视觉模块使用 UVFormer 从多视图特征生成占用图 O^h/o = O^h/ov，而 LLM 也输出 O^h/o = O^h/om，对应于 T/occ。实验验证表明，O^h/ov 和 O^h/om 为机器人操作提供类似的帮助。除非另有说明，O^h/o = O^h/ov。

（c）动作解码器：用一些 MLP 层来输出动作 O^h/A，包括 delta 6D 姿态 a^h/pose ={∆pos^h/x, ∆pos^h/y, ∆pos^h/z, ∆rot^h/x, ∆rot^h/y, ∆rot^h/z} 和 1-DoF 夹持器动作 a^h/g。

本文提出 RoboData，它有效地整合多个数据集并统一输入和输出空间，从而解决数据异构性问题。此外，它打破针对单个特定任务进行训练的限制，为机器人操作提供统一的基准。

ChatGPT [50] 和大型 AI 模型 [2, 4, 59] 的兴起，标志着人工智能的范式革命，所有这些都建立在丰富的“互联网规模”数据集的基础之上。然而，在具身智能领域，研究仍然集中于单一、特定的任务，例如抓取、路径规划和拾取和放置，旨在训练针对特定场景量身定制的智体。尽管 Open X-Embodiment [51] 和 ARIO [62] 等项目汇编了多个数据集，但它们仍然存在许多问题。例如，它们缺乏必要的 3D 信息（例如多视图、相机内和外参以及深度图），使得这些数据集仅适用于 2D 多模态训练。此外，数据集之间缺乏适当的空间对齐；具体而言，由于不同的世界坐标系，记录的机器人末端执行器的 6D 姿势（即位置和方向）表现出不一致。

RoboMM：用于机器人操作的一体化多模态大模型

正文

请到「今天看啥」查看全文