专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

美团最新！RoboMM：集于一体的机器人操作多模态大型模型

计算机视觉工坊 · 公众号 · · 2024-12-13 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：具身智能之心

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

在人工智能的快速演进中，具身智能逐渐成为一个重要的研究领域，展现了从单一数据源到迁移学习，再到空间智能与一脑多形的发展历程。这一转变不仅推动了机器人技术的进步，也为实现更复杂的智能系统奠定了基础。

一、单一数据源的限制

最初，机器人学习主要依赖于单一数据源进行训练。这种方法虽然在特定任务上取得了一些成功，但往往缺乏灵活性和适应性。单一数据源的模型在面对新环境或新任务时，表现出明显的局限性。例如，一款专注于执行特定操作的机器人在新的工作场景中可能会遇到困难，难以有效应对变化。

此外，研究模型的结构对成功率也起到了重要作用。以行为克隆（Behavior Cloning, BC）为例，传统的深度学习方法在模仿学习中常常依赖于直接从专家示例中学习，但这种方法在面对复杂环境时，容易受到训练数据的限制，导致模型的泛化能力不足。

随着技术的进步，新的模型结构不断涌现。近年来，随着 Transformer 在文本处理领域的成功，计算机视觉（CV）也逐渐迎来了新的发展。 RT1 首次将 Transformer 应用到机器人控制中，展示了其在动态环境中的潜力。同时，扩散（Diffusion）模型在图像生成领域的火热发展为具身智能提供了新的思路。扩散模型现已以 2D 输入的方式应用于机器人控制，后续的 3D Diffusion Actor 和 3D Diffusion Policy 等新型模型结构，通过利用扩散模型的强大生成能力，使得机器人能够在更复杂的三维环境中进行有效的决策和控制。这些模型不仅提升了模仿学习的成功率，还增强了机器人在动态环境中的适应能力。

为了克服这些局限性，研究者们开始探索更为复杂的学习机制，以增强机器人的适应能力和智能水平。

二、迁移学习的崛起

迁移学习的引入为具身智能的发展注入了新的活力。引入大模型思想，或借助大模型，或借助相关数据，迁移学习使得机器人能够更快地适应新任务。这一方法的核心在于利用已有的知识库，提升学习效率和效果。

例如， RT-2 首次证明利用网络多模态数据预训练同样可以提升机器控制能力，随后 Roboflamingo 和 Obouniview 分别借助多模态大模型及自动驾驶相关技术进一步提升效果。 GR-2 则通过视频生成技术实现了更高效的学习和适应。

然而，尽管迁移学习在预训练阶段表现出色，但在实际应用中，模型仍然需要在特定机器的单一数据上进行微调（fine-tuning）。这种微调过程使得模型能够更好地适应特定任务和环境，从而提高其在实际应用中的性能。

三、空间智能与一脑多形

随着技术的不断进步，具身智能逐渐向空间智能和一脑多形的方向发展。空间智能强调机器人在复杂的三维环境中进行感知和决策的能力，而一脑多形则意味着同一个智能系统能够灵活地根据不同任务的需求，自主调整其行为和策略。

在这一阶段，许多新型模型和框架应运而生，以应对多样化的应用需求。例如， RT-X 、 Octo 、 OpenVLA 、 CrossFormer 和 HPT 等模型通过多模态大模型的多数据微调，或通过异构设计来提升不同数据之间的兼容性。然而，这些模型仍主要局限于 2D 空间，未能有效解决不同数据和形态之间的异构性问题。具身智能要求机器人能够在复杂的三维环境中执行任务，因此，模型必须具备 3D 的感知和决策能力。同时，保持 3D 空间的一致性对于解决不同数据源和形态之间的不一致性至关重要。

为此， RoboMM 论文应运而生： RoboMM ，这是一种专为机器人操作设计的多模态大模型，结合了 RoboData ，一个综合性的多数据集，旨在整合多种数据源以弥补现有数据集的不足。 RoboMM 通过结合相机参数和占用监督，增强了对三维环境的感知能力。此外，借助像 OpenFlamingo这样的先进语言模型，设计了高效的模态隔离掩码，灵活地引入多模态监督。这种设计不仅提高了模型的细粒度感知能力，还使其能够更有效地利用来自互联网的大量数据。

在数据方面，虽然 Open X-Embodiment 整合了多个数据集，但缺乏多视角图像、相机参数和深度图等关键信息，使其更适合于 2D 多模态训练。此外，数据空间对齐的缺失导致机器人在不同数据集上的 6D 姿态不一致。而 RoboData 则通过整合多个行业知名数据集，解决了这些问题。补充了深度图和相机参数等缺失的模态。更重要的是， RoboData 通过统一物理空间，对跨机器人和平台的输入输出空间进行了对齐，确保了一致性，促进了来自多样化机器人数据集的集成学习。

RoboData 旨在为行业提供全面且公平的评估系统，而 RoboMM 则是首个能够在多个数据集上进行训练和测试的通用策略。大量实验结果表明， RoboMM 的各个组件显著提升了机器人操作任务的性能，在CALVIN基准测试中，平均序列长度从 1.7 提升至 3.3。此外， RoboMM 还确保了跨体能力，并在多个数据集上达到了最先进的结果!

四、未来展望

具身智能的发展历程表明，从单一数据到迁移学习，再到空间智能的一脑多型，技术的演变不断推动着机器人领域的创新。未来，具身智能有望在智能家居、自动驾驶、工业自动化等多个领域发挥更大的作用。

随着技术的不断进步，具身智能将能够在更复杂的环境中自主决策，真正成为人类的得力助手。通过不断学习和适应，具身智能不仅是技术的代表，更是未来智能生活的重要组成部分。

参考：

RoboMM : https://robouniview.github.io/RoboMM.github.io/

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、