UC伯克利最新！Beyond Sight: 零样本微调通用机器人策略

自动驾驶之心 · 公众号 · · 2025-02-10 07:30

正文

点击下方卡片，关注“ 具身智能 之心 ”公众号

作者 | Joshua Jones 编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区 ： 具身智能之心知识星球 (戳我) ，这里包含所有你想要的。

多模态数据整合到机器人策略中困难

与世界交互是一种多感官体验：要实现有效的通用交互，需要利用所有可用的模态，包括视觉、触觉和听觉，来填补部分观测的空白。例如，当视觉被遮挡（如把手伸进袋子里）时，机器人应依靠触觉和听觉。然而，当前最先进的通用机器人策略通常是在大型数据集上进行训练，仅从视觉和本体感受观测来预测机器人动作。在这项工作中，我们提出了 FuSe，这是一种新颖的方法，它能够通过利用自然语言作为通用的跨模态锚定，在难以获取大型数据集的异构传感器模态上微调视觉运动通用策略。我们将多模态对比损失与基于感官锚定的语言生成损失相结合，以编码高级语义。在机器人操作的背景下，我们展示了 FuSe 能够在零样本设置中执行具有挑战性的任务，这些任务需要对视觉、触觉和声音等模态进行联合推理，如多模态提示、组合式跨模态提示以及对与之交互的物体进行描述。我们表明，相同的方法适用于各种不同的通用策略，包括基于扩散的通用策略和大型视觉 - 语言 - 动作（VLA）模型。大量的实际实验表明，与所有考虑的基线相比，FuSe 能够将成功率提高 20% 以上。项目页面：https://fuse-model.github.io

内容出自国内首个具身智能全栈学习社区： 具身智能之心知识星球 ，这里包含所有你想要的。

一些介绍

智能生物能够无缝地整合各种感官反馈，从而有效地与物理世界进行交互。除了视觉，人类在操作物体时还依赖触觉和听觉反馈，因为它们能提供关于物体属性的丰富补充信息，特别是当仅靠视觉信息不足以完成任务时，比如在袋子里找钥匙。这与当前最先进的 “通用” 机器人策略形成对比，这些策略从大量机器人数据集中吸收知识，但通常仅依靠视觉和本体感受观测来执行各种任务。基于真正异构数据的通用机器人策略发展的主要限制因素是，几乎所有机器人数据集都包含视觉和本体感受信息，但只有少数包含其他感官数据。这就引出了一个问题：如何在保留基于大量数据预训练的通用机器人策略的泛化能力的同时，将其语义知识与难以获取大型数据集的异构感官数据联系起来？

在这项工作中，我们应对这些挑战，并提出一种在较小规模数据集上微调通用机器人策略的方法，这些数据集包含与视觉互补的模态，如触觉和声音。我们证明，通过这种多模态微调过程，可以解锁新的能力和跨模态语义理解。我们的核心观点是，通过辅助损失将所有模态锚定在单一的通用自然语言模态中，我们可以实现对所有模态的联合推理。通过这样做，我们使我们的策略能够在零样本设置中执行具有挑战性的操作任务，这些任务需要对视觉、触觉和声音进行联合推理，支持多模态提示、在交互时生成物体描述，以及组合式跨模态提示。在实际应用中，我们的策略可以成功完成具有挑战性的任务指令，例如 “挑选柔软且发出响亮声音的红色物体”“描述抓取物体的触感”“挑选与播放钢琴声音的按钮颜色相同的物体”。

我们的结果表明，利用在多模态数据上微调的预训练通用机器人策略，始终优于仅在视觉数据上微调或在异构感官数据上从头开始训练的基线模型。我们发现，相同的通用方法适用于具有广泛不同架构的通用策略，例如 Octo，这是一种基于大型 Transformer 的策略，在 Open X-Embodiment（OXE）数据集上进行训练，以及具有 PaliGemma 视觉语言模型（VLM）骨干网络的 30 亿参数 VLA 模型。在实验中，我们收集了一个包含 2.7 万个机器人轨迹的数据集，涵盖视觉、触觉、音频、本体感受和语言指令，涉及三种不同的实际机器人操作任务。据我们所知，这个数据集是首个包含机器人动作数据的此类数据集，这对于执行基于物理的多模态任务至关重要。我们开源了所有数据、代码和模型，以支持该领域的未来研究。

FuSe 微调

当前最先进的通用机器人策略通常依赖视觉、语言和机器人动作作为训练模态，这限制了它们在部分可观测场景中的适用性，在这些场景中，任务无法仅通过视觉完成。我们提出了一种名为 FuSe 的方法，用于将异构感官数据融合到通用机器人策略中。具体来说，我们对这些策略进行微调，将它们的语义理解扩展到包括额外的传感模态，如触觉和声音，同时保留它们的预训练知识。通过提出两种辅助损失，将异构观测与自然语言进行对比，并从观测中生成语言，我们能够将各种传感模态与预训练通用机器人策略的语义知识联系起来。在本文的主要实验中，我们使用基于 Transformer 的预训练策略 Octo 作为骨干模型，但我们也展示了相同的微调方法适用于基于 PaliGemma VLM 骨干网络的 30 亿参数视觉 - 语言 - 动作模型。训练架构如图 2 所示。

这种微调策略带来了三个主要挑战：第一，新模态的特征提取器（编码器）的权重通常需要从一个小数据集中有效学习；第二，经验表明，微调后的模型倾向于主要依赖预训练模态，忽略新传感器；第三，新的跨模态提示能力依赖于特定模态的注释，例如 “物体感觉柔软且有弹性”。下面我们详细介绍应对这些挑战所需的修改。

触觉编码器

为了解决微调数据集规模小的问题，我们使用预训练的触觉编码器，并将其与骨干 Octo 架构一起进行微调。具体来说，我们使用 TVL 编码器，它是通过跨视觉、语言和触觉模态的成对对比学习进行预训练的。我们将所有触觉图像（在我们的机器人设置中有两个）分别通过相同的 TVL 编码器进行处理。

音频编码器

由于原始音频波形维度高且有噪声，我们按照先前的工作对音频数据进行处理，构建频谱图。然后，频谱图被视为常规图像，并通过 ResNet26 编码器进行处理。

辅助损失

如前所述，一种简单的方法是使用基于均方误差（MSE）的模仿损失，以额外的传感器数据为条件对预训练的通用策略进行微调，但这会导致策略过度依赖其预训练模态，忽略新模态。我们通过引入两种额外的损失来克服这个限制，这两种损失充分利用多模态，并将预训练通用策略的语义知识与未见过的传感器模态联系起来：

多模态对比损失 ：我们引入一种损失，旨在通过类似 CLIP 的对比学习，将各种语言指令与观测对齐。从高层次上讲，它旨在最大化同一场景的不同模态和语义之间的互信息。具体来说，我们通过将所有模态再次输入 Transformer，并通过多头注意力层将它们组合起来，构建一个观测嵌入。然后，我们为不同可用模态组合产生的每个可能指令计算一个类似 CLIP 的损失。这些损失最终取平均值，形成一个组合的多模态对比损失。
多模态生成损失 ：我们设计了一个生成网络，作为骨干模型的附加头部。在实践中，对于每个可能的模态组合，我们如上所述构建一个观测嵌入，并将其输入生成头部。然后，我们通过将头部输出与适当的语言指令进行比较，计算一个辅助交叉熵损失。我们对所有可能的模态组合使用单个 Transformer 作为生成头部，并使用模态令牌来区分输入模态。

最终的损失由给出，其中对比损失和生成损失在训练期间与 MSE 动作损失相加。

语言改写

如前所述，跨模态提示能力需要特定模态的注释，例如 “物体感觉柔软且看起来是圆形的”。我们用事后的语言注释对收集的带有异构传感器的机器人轨迹进行标注。我们用模板化语言对这些轨迹进行注释，这使我们能够基于多个传感器输入创建增强注释，如 “物体感觉柔软且是红色的” 或 “物体感觉是金属质地且发出叮当声”。然而，在测试时，我们希望用户用自由形式的语言来指令策略。为了增加可能的输入指令范围，我们通过查询大型语言模型 ChatGPT 来生成原始模板的改写版本，以增强数据集中的指令，这些改写版本保留了原始语义。

实现细节

我们在 v5e - 128 TPU pod 上对所有模型进行 50000 步的训练，批次大小为 1024。我们使用带有 2000 个热身步骤的余弦学习率调度器，峰值学习率为。我们的语言改写缓冲区为每个可能的模态组合包含 20 个不同的模板。在所有实验中，我们将 β 设置为 1，λ 设置为 1。

实验分析

在本节中，我们研究 FuSe 在微调预训练通用机器人策略以纳入额外传感器模态方面的有效性，同时将这些模态与策略的预训练语义知识联系起来。我们回答以下问题：

FuSe 是否有助于在部分可观测环境中以零样本方式执行多模态提示任务？
FuSe 是否能够使多模态提示区分仅用单一模态描述会产生歧义的物体？
FuSe 的多模态能力能否应用于组合推理任务？
在微调 FuSe 时，所提出的辅助跨模态语言锚定损失对于实现高性能是否必要？
FuSe 是否适用于不同的通用机器人策略架构？

真实机器人设置和训练数据

我们所有的实验都使用 WidowX 250 六自由度机械臂。机器人通过末端执行器的增量位置命令以 5Hz 的频率进行控制。该系统配备了一个第三人称视角的 RGB 摄像头、一个手腕 RGB 摄像头、两个位于夹爪手指上的 DIGIT 触觉传感器、一个标准麦克风和一个 9 自由度的 IMU。我们展示了在三个不同任务上的实验，如下所述。在抓取场景中，我们在训练数据集中的 24 个物体以及 32 个未见过的测试物体上进行评估；在按钮任务中，我们在训练数据集中看到的 6 个按钮和 18 个干扰项 / 抓取目标中的 13 个，以及 2 个未见过的按钮和 12 个未见过的干扰项上进行评估。我们在图 4 中展示了训练和测试中使用的物体。

我们在每个任务的几个不同场景（例如不同的物体和干扰项）上对每个模型进行评估，每个场景运行 5 次不同的试验。我们通过使用 Meta Quest 2 VR 头显进行遥操作，收集了 26866 个轨迹的数据集。每个轨迹都用模板化的语言指令进行标注。两个抓取任务（桌面抓取和购物袋抓取）包含视觉、触觉和动作数据，而按钮按压任务还包括声音数据。视觉观测的分辨率为 640×480，而 DIGIT 图像的分辨率为 320×240。我们遵循先前的工作，从触觉观测中减去静态的 “背景” 图像，以突出与零变形状态的偏差，并减少不同 DIGIT 实例之间的系统差异。音频观测包含最近 1 秒的麦克风采样，采样频率为 44100Hz。我们在图 3 中展示了机器人的感官设置。

评估任务

我们设计了一组具有挑战性的任务，重点测试策略在零样本设置中对视觉、声音和触觉进行联合推理的能力：

桌面抓取 ：我们设置了一个简单的桌面抓取场景，多个物体放置在托盘上，任务是根据文本指令抓取正确的物体（例如，拿起胡萝卜）。
购物袋抓取 ：这个环境呈现了一个更复杂的抓取场景，物体放置在纸袋内。这种场景通常会导致第三人称视角摄像头的遮挡，并且当夹爪进入袋子时，手腕摄像头的光照条件也很差。因此，这代表了一个视觉部分可观测的环境。
按钮按压 ：在这个环境中，我们利用声音模态，有六个发声按钮，每个按钮在按压时会发出不同的声音。目标是根据提示按下正确的按钮，提示可以是与视觉或音频相关的命令（例如，“按下红色按钮”“按下播放钢琴声音的按钮” 等）。

我们还在按钮按压设置中设计了两个多模态组合推理任务，目标要么是抓取与其中一个按钮具有相同视觉特征的物体（例如，“抓取与播放钢琴声音的按钮颜色相同的物体”），要么是在训练按钮中按下与未见过的按钮发出相同声音的按钮（例如，“按下与蓝色按钮发出相同声音的按钮”）。

微调性能

我们研究了多模态微调方法的优势，该方法使用 Octo 通用策略对模型进行初始化，Octo 在大型 OXE 机器人数据集上进行预训练。首先，我们通过将模型性能与具有相同架构但从头开始训练的模型进行比较，来探究预训练是否必要。图 5 中的结果显示，两个模型之间存在很大差距，这表明在没有我们的微调方法的情况下，仅在我们的多模态数据集上从头开始训练 Octo 具有挑战性，因为数据集规模有限。相比之下，我们的方法利用了预训练期间获得的知识，并且可以通过少量额外数据适应新的任务和模态。最后，我们与基于 ResNet 的基线进行比较，在该基线中，语言指令通过 FiLM 条件输入，如文献所述。较小的 ResNet26 模型的性能略优于从头开始训练的 Octo 模型，但在所有三个任务上仍显著低于我们的模型。

为了验证新模态对微调性能的影响，我们与仅使用可用的预训练模态（即视觉和动作）对 Octo 进行微调的方法进行比较。图 5 中的结果表明，该基线在较简单的任务（桌面抓取和按钮按压）上具有竞争力，但在购物袋任务上明显不如我们的模型。在购物袋任务中，当夹爪进入购物袋时，视觉遮挡使视觉特征的判别力降低。

UC伯克利最新！Beyond Sight: 零样本微调通用机器人策略

正文

多模态数据整合到机器人策略中困难

一些介绍

相关工作