专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

HULC-2丨非结构化数据的具有视觉可供性标定语言

学姐带你玩AI · 公众号 · · 2025-02-03 18:07

正文

来源：投稿作者：橡皮
编辑：学姐

论文地址：https://arxiv.org/pdf/2210.01911.pdf

项目主页：https://github.com/mees/hulc2

摘要：

最近的研究表明，大型语言模型 (LLM) 可以应用于将自然语言应用到各种各样的机器人技能中。然而，在实践中，学习多任务、语言为条件的机器人技能通常需要大规模数据收集和频繁的人为干预来重置环境或帮助纠正当前策略。在这项工作中，我们提出了一种新方法，通过利用自监督的视觉语言可供性模型，从现实世界中非结构化、离线和免重置数据中高效地学习通用的语言调节机器人技能，这只需要用语言注释总数据的 1%。我们在模拟和现实世界的机器人任务中通过大量实验评估了我们的方法，在具有挑战性的 CALVIN 基准上实现了最先进的性能，并在现实世界中使用单一策略学习了超过 25 种不同的视觉运动操作任务。我们发现，当与 LLM 结合使用，通过少量提示将抽象的自然语言指令分解为子目标时，我们的方法能够完成现实世界中的长期、多层任务，同时所需数据比以前的方法少一个数量级。

1 引言

大规模语言建模的最新进展已取得了令人鼓舞的成果，将机器人对世界的语义知识与机器人的指令遵循和规划联系起来。实际上，使用大型语言模型 (LLM) 进行规划需要拥有大量不同的低级行为，这些行为可以无缝组合在一起，以智能地在世界中行动。学习此类感觉运动技能并将其应用于语言通常需要进行大规模数据收集工作并频繁进行人工干预，将技能限制为模板化的拾取和放置操作或在更简单的模拟环境中部署策略。人类看似简单的任务（例如将水倒入杯中）却很难教会机器人去做，这种现象也称为莫拉维克悖论。这就引出了一个问题：我们如何以可扩展且数据高效的方式学习现实世界中的多样化视觉运动技能，以便遵循指令？

先前的研究表明，将机器人操作分解为语义和空间路径可提高泛化能力、数据效率和对多模态信息的理解。受这些路径架构的启发，我们提出了一种新颖的、样本效率高的方法，通过利用自监督的视觉语言可供性模型，从现实世界中的非结构化、离线和无重置数据中学习通用语言条件机器人技能。我们的主要观察是，我们不必使用单个端到端模型扩展数据收集以学习如何从任何当前状态达到任何可达到的目标状态，而是可以使用基于语义概念的高级流和基于 3D 空间交互知识的低级流分层地分解目标实现问题，如图 1 所示。

图 1：与大型语言模型结合使用时，HULC++ 能够根据现实世界中的抽象自然语言指令完成长期、多层级任务，例如“整理工作区”，无需额外训练。我们利用视觉可供性模型引导机器人到达语言所指的可操作区域附近。进入该区域后，我们切换到单个 7 自由度语言条件视觉运动策略，该策略由离线非结构化数据训练而成。

具体来说，我们提出了分层通用语言条件策略 2.0 (HULC++)，这是一个分层语言条件代理，它将 HULC的任务无关控制与 VAPO的对象中心语义理解相结合。HULC 是一种最先进的语言条件模仿学习代理，可以端到端学习 7DoF 目标实现策略。然而，为了共同学习语言、视觉和控制，它需要大量的机器人交互数据，与其他端到端代理类似。VAPO 提取了非结构化数据的自监督视觉可供性模型，不仅可以加速学习，而且还被证明可以促进下游控制策略的泛化。我们表明，通过扩展 VAPO 来学习语言条件下的可供性并将其与基于 HULC 的 7-DoF 低级策略相结合，我们的方法能够直接从图像中连续跟踪多个长程操纵任务，同时所需的数据比以前的方法少一个数量级。与以前的工作不同，以前的工作依赖于昂贵的专家演示和完全注释的数据集来学习现实世界中语言条件下的代理，我们的方法利用了更具可扩展性的数据收集方案：非结构化、无重置且可能次优的遥控游戏数据。此外，我们的方法只需要用语言注释总数据的 1%。大量实验表明，当与将抽象的自然语言指令转换为一系列子目标的 LLM 结合使用时，HULC++ 能够在现实世界中完成长程、多阶段的自然语言指令。最后，我们展示了我们的模型在具有挑战性的 CALVIN 基准上创造了新的最高水平，该基准使用 7 自由度控制连续执行多个长视界操纵任务，这些任务来自高维感知观察，并通过自然语言指定。据我们所知，我们的方法是第一个明确旨在从现实世界中的纯离线、无重置和非结构化数据中解决语言条件下的长程、多层任务的方法，同时仅需要 1% 的语言注释。

2 相关工作

受语言和视觉基础研究的推动，机器人社区对构建语言驱动的机器人系统的兴趣日益浓厚。早期的研究主要集中在定位指称表达中提到的物体以及遵循预定义运动基元的拾取和放置指令。最近，端到端学习已用于研究融合感知、语言和控制的挑战性问题。从像素开始的端到端学习因其灵活性而成为通用代理建模的有吸引力的选择，因为它对对象和任务的假设最少。然而，这种从像素到动作的模型通常样本效率较差。在机器人操控领域，两个极端分别是 CLIPort和 GATO和 BC-Z等智能体，前者需要数百次专家演示才能完成物体的拾取和放置运动规划，后者需要数月专家演示数据收集才能学习视觉运动操控技能，从而实现连续控制。相比之下，我们取消了收集专家演示的要求以及手动重置场景的相应需求，而是从非结构化、无需重置的遥控游戏数据中进行学习。另一项正交研究通过使用预训练图像表示来引导下游任务学习，从而解决数据效率低下的问题，我们也在本研究中利用了这一点。

我们提出了一种新颖的分层方法，结合了两种范式的优势，从高维摄像机观察中学习语言条件、任务无关、长远的策略。受到将机器人操作分解为语义和空间路径的工作的启发，我们提出利用来自非结构化数据的自监督可供性模型，引导机器人到达语言指令中提到的可操作区域附近。一旦进入该区域，我们将切换到单个多任务 7 自由度语言条件视觉运动策略，该策略也从离线非结构化数据中进行训练。

3 方法

我们将方法分解为三个主要步骤。首先，我们从非结构化的远程操作数据中训练一个语言条件可供性模型，以预测提供输入语言指令的对象的 3D 位置（第 III-A 节）。其次，我们利用基于模型的规划向预测位置移动，并切换到本地语言条件、基于学习的策略与场景交互（第 III-C 节）。第三，我们展示如何将 HULC++ 与大型语言模型 (LLM) 一起使用，将抽象语言指令分解为一系列可行、可执行的子任务（第 III-D 节）。

正式地，我们的最终机器人策略定义为混合：

具体来说，我们使用投影的末端执行器位置和可供性模型预测的像素之间的像素距离来选择使用哪种策略。如果距离大于阈值，则预测区域距离机器人当前位置较远，我们使用基于模型的策略移动到预测位置。否则，末端执行器已经接近预测位置，我们继续使用基于学习的策略。因此，我们将 α 定义为：

由于可供性预测取决于语言，因此每次代理收到新指令时，我们的代理都会根据决定使用哪种策略。将无模型策略的有效区域限制在可供人与物体交互的区域附近具有优势，因为它只需要学习局部行为，因此可以提高样本效率。

图 3：系统架构概览。HULC++ 首先处理语言指令和来自静态摄像机的图像，以预测可用区域并引导机器人到达其附近。进入该区域后，我们切换到语言条件模仿学习代理，该代理从夹持器和静态摄像机接收 RGB 观测值，并端到端学习 7-DoF 目标实现策略。这两个模块都从相同的自由形式、非结构化数据集中学习，并且仅需要 1% 的语言注释。

A. 从非结构化数据中提取人类可供性

我们的目标是学习一个可供性模型，该模型在给出自然语言指令时可以预测世界位置。与之前需要手动绘制分割蒙版的可供性学习方法不同，我们从非结构化的、人类遥控游戏数据中自动提取可供性。利用游戏数据有几个优点：它成本低且易于收集，包含一般行为，并且不是随机的，而是由人类对可供性的了解构建的。具体来说，游戏数据由一个未分段的长数据集 D 组成，该数据集包含用户在未考虑特定任务的情况下遥控机器人所提供的具有语义意义的行为。完整的状态-动作流被重新标记，以将前面的状态和动作视为达到访问状态的最佳行为。此外，我们假设少量随机序列（不到数据集的 1%）用语言指令注释，这些指令描述了序列中正在完成的任务。

为了从非结构化数据中提取视觉可供性，我们使用夹持器动作作为启发式方法来发现与任务完成相关的场景元素。考虑以下场景：随机序列，其中 k 表示窗口大小，用语言指令注释。如果对于序列中的任何状态 si，动作 ai 包含夹持器关闭信号，我们假设在末端执行器的位置有一个执行任务 l 所需的对象。为了学习视觉语言可供性模型，我们将末端执行器世界位置投影到相机图像以获得像素，并使用所述像素和语言指令 l 注释前几帧，如图 2 所示。直观地说，这允许可供性模型学习预测完成任务 l 所需的对象对应的像素。

图 2：从人类远程操作的非结构化、自由形式交互数据中提取语言条件视觉可供性的过程可视化。我们利用远程操作期间的夹持器打开/关闭信号将末端执行器投射到相机图像中，以检测无向数据中的可供性。

在测试期间，给定预测的像素位置，假设现有的相机校准，需要深度信息来计算基于模型的策略应移动到的 3D 位置。我们的模型不依赖于感官深度观察，而是通过使用夹持器闭合期间末端执行器的位置作为监督来训练以产生估计深度。我们公式的一个关键优势是，通过从视觉语言特征预测深度，我们的模型可以更好地适应场景中可能发生的部分遮挡。

B. 语言条件视觉可供性

我们的视觉语言可供性模型（见图 3）由一个编码器解码器架构和两个解码器头组成。第一个头预测图像上的分布，表示每个像素成为可供点的可能性。第二个头预测高斯分布，从中采样相应的预测深度。两个头共享相同的编码器，并以输入语言指令为条件。正式地，给定一个由视觉观察 I 和语言指令 l 组成的输入，可供性模型产生的输出 o 为（1）逐像素热图，表示可供执行命令任务的区域和（2）相应的深度估计 d。我们将此映射表示为。

1）视觉模块： 视觉预测模块根据输入生成热图 A。为了训练它，我们对 A 的所有像素应用 softmax 函数。这会导致图像上的分布 V，其中所有像素值的总和等于1。

类似地，通过将其所有值初始化为零，将目标 T 构造为与 V 具有相同形状。然后，我们使用与当前状态输入相对应的投影位置的像素生成二进制独热像素图。最后，我们使用交叉熵损失优化视觉预测模块：

其中和。这种优化方案允许视觉模块学习图像的多模态信念，其中具有最高值的像素表示给定输入的最可能图像位置。在推理过程中，我们使用密集的像素级输出预测 A 来选择像素位置：

可供性预测遵循 U-Net架构，其中我们从 LingUNet中汲取灵感，在瓶颈之后，我们反复将语言条件应用于三个解码器层。

2) 深度模块： 如上所述，我们可以通过将感兴趣的像素转换为相机框架来计算深度模块的目标，以获得，其中该点的 z 坐标对应于地面真实深度。虽然我们计算了真实值，但典型的深度传感器存在测量误差。因此，为了设计一个模拟深度误差的系统，我们使用真值深度信息通过最大化对数似然来训练高斯分布。

如图 3 所示，深度模块由一组线性层组成，这些线性层将编码的视觉语言特征作为输入。在这里，语言调节是通过将自然语言编码连接到多层感知器的前两层来完成的。网络的输出是高斯分布 d ∼ N(µ; σ) 的参数，在推理过程中对其进行采样以获得深度预测 d。用于训练完整可供性模型的总损失函数定义为可供性模块和深度预测模块损失的加权组合：

C. 低级语言条件策略

为了与物体互动，我们学习了一个目标条件策略，该策略在环境动态下，以当前状态和自由形式语言指令为条件，输出动作。我们注意到，代理无法访问环境的真实状态，但可以访问视觉观察。我们使用基于HULC的通用目标达成策略对低级策略进行建模，并使用多上下文模仿学习进行训练。我们利用相同的、长的非结构化数据集D，该数据集包含用户提供的语义上有意义的行为，我们之前曾在第III-A节中使用该数据集来学习可供性。为了学习与任务无关的控制，我们利用目标重新标记，通过将这些短期目标图像条件演示输入到一个简单的最大似然目标条件模仿目标中：

然而，在学习语言条件策略

HULC-2丨非结构化数据的具有视觉可供性标定语言

正文

摘要：

1 引言

2 相关工作

3 方法

请到「今天看啥」查看全文