美团最新！RoboMM：集于一体的机器人操作多模态大型模型

自动驾驶之心 · 公众号 · · 2024-12-14 00:00

正文

点击下方卡片，关注“ 具身智能 之心 ”公众号

作者 | 具身智能之心编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区 ： 具身智能之心知识星球 (戳我) ，这里包含所有你想要的。

在人工智能的快速演进中，具身智能逐渐成为一个重要的研究领域，展现了从单一数据源到迁移学习，再到空间智能与一脑多形的发展历程。这一转变不仅推动了机器人技术的进步，也为实现更复杂的智能系统奠定了基础。

一、单一数据源的限制

最初，机器人学习主要依赖于单一数据源进行训练。这种方法虽然在特定任务上取得了一些成功，但往往缺乏灵活性和适应性。单一数据源的模型在面对新环境或新任务时，表现出明显的局限性。例如，一款专注于执行特定操作的机器人在新的工作场景中可能会遇到困难，难以有效应对变化。

此外，研究模型的结构对成功率也起到了重要作用。以行为克隆（Behavior Cloning, BC）为例，传统的深度学习方法在模仿学习中常常依赖于直接从专家示例中学习，但这种方法在面对复杂环境时，容易受到训练数据的限制，导致模型的泛化能力不足。

随着技术的进步，新的模型结构不断涌现。近年来，随着 Transformer 在文本处理领域的成功，计算机视觉（CV）也逐渐迎来了新的发展。 RT1 首次将 Transformer 应用到机器人控制中，展示了其在动态环境中的潜力。同时，扩散（Diffusion）模型在图像生成领域的火热发展为具身智能提供了新的思路。扩散模型现已以 2D 输入的方式应用于机器人控制，后续的 3D Diffusion Actor 和 3D Diffusion Policy 等新型模型结构，通过利用扩散模型的强大生成能力，使得机器人能够在更复杂的三维环境中进行有效的决策和控制。这些模型不仅提升了模仿学习的成功率，还增强了机器人在动态环境中的适应能力。

为了克服这些局限性，研究者们开始探索更为复杂的学习机制，以增强机器人的适应能力和智能水平。

二、迁移学习的崛起

迁移学习的引入为具身智能的发展注入了新的活力。引入大模型思想，或借助大模型，或借助相关数据，迁移学习使得机器人能够更快地适应新任务。这一方法的核心在于利用已有的知识库，提升学习效率和效果。

例如， RT-2 首次证明利用网络多模态数据预训练同样可以提升机器控制能力，随后 Roboflamingo 和 Obouniview 分别借助多模态大模型及自动驾驶相关技术进一步提升效果。 GR-2 则通过视频生成技术实现了更高效的学习和适应。

然而，尽管迁移学习在预训练阶段表现出色，但在实际应用中，模型仍然需要在特定机器的单一数据上进行微调（fine-tuning）。这种微调过程使得模型能够更好地适应特定任务和环境，从而提高其在实际应用中的性能。

三、空间智能与一脑多形

随着技术的不断进步，具身智能逐渐向空间智能和一脑多形的方向发展。空间智能强调机器人在复杂的三维环境中进行感知和决策的能力，而一脑多形则意味着同一个智能系统能够灵活地根据不同任务的需求，自主调整其行为和策略。

在这一阶段，许多新型模型和框架应运而生，以应对多样化的应用需求。例如， RT-X 、 Octo 、 OpenVLA 、 CrossFormer 和 HPT 等模型通过多模态大模型的多数据微调，或通过异构设计来提升不同数据之间的兼容性。然而，这些模型仍主要局限于 2D 空间，未能有效解决不同数据和形态之间的异构性问题。具身智能要求机器人能够在复杂的三维环境中执行任务，因此，模型必须具备 3D 的感知和决策能力。同时，保持 3D 空间的一致性对于解决不同数据源和形态之间的不一致性至关重要。

美团最新！RoboMM：集于一体的机器人操作多模态大型模型

正文

一、单一数据源的限制

二、迁移学习的崛起

三、空间智能与一脑多形

请到「今天看啥」查看全文