RT-Trajectory：通过事后轨迹草图实现机器人任务泛化

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-13 02:19

正文

23年11月来自谷歌DeepMind、UCSD、斯坦福和谷歌Intrinsic的论文“RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches”。

泛化仍然是稳健机器人学习系统最重要的要求之一。虽然最近提出的方法在泛化到新物体、语义概念或视觉分布变化方面显示出希望，但泛化到新任务仍然具有挑战性。例如，即使折叠（folding）的手臂轨迹与拾取和放置相似，在拾取和放置任务上训练的语言条件策略也无法泛化到一个折叠任务。本文主要见解是，如果通过粗略轨迹草图（sketches）来表示任务，这种泛化就变得可行。本文提出一种使用这种粗略轨迹草图的策略条件方法，称之为 RT-Trajectory ，它实用、易于指定，并允许策略有效地执行原本难以执行的新任务。在足够详细以表达低级运动为中心的指导与足够粗糙以允许学习策略在情境视觉观察的上下文解释轨迹草图之间，轨迹草图取得平衡。

此外，还展示轨迹草图如何提供与机器人策略进行通信的有用界面 - 它们可以通过简单的人工输入（例如绘图或视频）或自动化方法（例如现代图像生成或航点生成方法）来指定。在各种现实世界的机器人任务上对 RT-Trajectory 进行了大规模评估，并发现当提供相同的训练数据时，与语言条件和目标条件策略相比，RT-Trajectory 能够执行更广泛的任务。

基于学习的机器人策略如何稳健地推广到训练精确数据以外的新情况？实证研究分析机器人模仿学习中的泛化挑战，重点关注 2D 控制（Toyer，2020）、演示质量（Mandlekar，2021）、视觉分布漂移（Xie，2023）和动作一致性（Belkhale，2023）。此外，先前的研究提出明确测试策略泛化的评估协议；这些包括推广到新的语义属性 (Shridhar，2021)、保留语言模板 (Jang，2021)、未见过的目标类别 (Pinto & Gupta，2016；Mahler，2017；Shridhar，2022；Stone，2023)、新背景和干扰 (Chen，2023；Yu，2023)、分布漂移的组合 (Brohan，2023b；Jiang，2023)、开放集语言指令 (Xiao，2023；Huang，2023) 和网络规模语义概念 (Brohan，2023a)。虽然这些先前的工作主要涉及语义和视觉泛化，但还有任务泛化，其中包括需要以新的方式结合见过的状态和动作情况，或完全泛化到未见过的状态或动作情况。

目标是学习一种能够利用 2D 粗略轨迹草图图像作为其条件的机器人控制策略。其方法的系统图如图所示。RT-Trajectory 是一种利用粗略轨迹草图进行策略调节的框架。在事后轨迹草图（左上）上进行训练，并在通过轨迹图、人体视频或基础模型生成的推理轨迹（左下）上进行评估。这些轨迹草图用作 RT-1（Brohan，2023b）策略主干（右）的任务规范。轨迹以视觉方式描述末端执行器运动（曲线）和夹持器交互（圆）。

构建轨迹表示格式的三个基本元素是：2D轨迹、颜色分级（Grading）和交互标记（Markers）。

2D 轨迹。对于演示数据集中的每个episode，提取机器人末端执行器中心点的 2D 轨迹。具体而言，给定episode中记录的本体感受信息，获得每个时间步长在机器人底座框架中定义的机器人末端执行器中心 3D 位置，并在已知相机外参和内参的情况下将其投影到相机空间。假设机器人底座和相机在episode内不动，这对于静止操作很常见。给定 2D 轨迹（一系列像素位置），通过直线连接相邻时间步长的 2D 机器人末端执行器中心点，在空白图像上绘制曲线。

颜色分级。为了表达相对时域运动（编码速度和方向等），还探索使用轨迹图像的红色通道来指定归一化时间步长 t+1/T，其中 t 是当前时间步长，T 是episode总长度。此外，将高度信息合并到轨迹表示中，利用轨迹图像的绿色通道对相对于机器人底座的归一化高度进行编码（ht+1 −hmin）/（hmax −hmin）。

交互标记。对于机器人操作任务，末端执行器与环境交互的时间步尤为重要。因此，探索明确突出显示夹持器开始抓取和释放物体的时间步视觉标记。具体而言，首先检查感知的（pt）和目标（pˆt）夹持器关节位置之间的差异δ=pˆt−pt，计算夹持器是否与物体接触。如果差异 δt > 0 且 pˆt > ε，其中 ε 是闭合动作的阈值（ p 随着夹持器闭合而增加），则表示夹持器正在闭合并抓取某个物体。在闭合（或打开）夹持器的所有关键时间步，给2D机器人末端执行器中心点处绘制绿色（或蓝色）圆圈。

轨迹表示。在这项工作中，提出两种形式的轨迹表示，这些表示来自基本元素的不同组合。在第一种表示中，RT-Trajectory (2D)，构建一个包含 2D 轨迹的 RGB 图像，其中包含时间信息和交互标记以指示特定的机器人交互。在第二种表示中，引入更详细的轨迹表示 RT-Trajectory (2.5D)，其中包括 2D 轨迹中的高度信息。

策略训练

利用模仿学习，因为它在多任务机器人模仿学习环境中取得了巨大成功（Jang，2022；Bousmalis，2023）。更具体地说，假设可以访问成功的机器人演示episodes集合。每个episode τ 包含一系列观察 ot 和动作对 at：τ ={(ot,at)}。观测包括从头部摄像头 xt 获得的 RGB 图像和事后轨迹草图 ctraj 。然后，根据 RT-1 框架（Brohan，2023b）使用行为克隆（Pomerleau，1988）学习由 Transformer（Vaswani，2017）表示的策略 π，方法是在给定输入图像和轨迹草图的情况下最小化预测动作 at 的对数似然。为了支持轨迹条件，修改 RT-1 架构，如下所示。轨迹草图沿输入序列（6 张图像的历史记录）中的特征维度与每张 RGB 图像连接，由图像token化器（ImageNet 预训练的 EfficientNet-B3）处理。对于图像token化器的附加输入通道，用全零的初始化第一个卷积层中的新权重。由于不使用语言指令，删除原始 RT-1 中使用的 FiLM 层。

推理中的轨迹调节

在推理过程中，需要轨迹草图来调节 RT-Trajectory。这里有 4 种不同的轨迹草图生成方法：人类绘画、人类视频、以代码为策略（CaP）的提示 LLM 和图像生成模型。

人类绘制的草图。人类绘制的草图是一种直观且实用的生成轨迹草图方法。为了可扩展地生成这些草图，设计一个简单的图形用户界面 (GUI)，供用户根据机器人的初始相机图像绘制轨迹草图。

具有手部与物体交互的人类演示视频。第一人称人类演示视频是另一种输入。从视频中估计人类手部姿势的轨迹，并将其转换为机器人末端执行器姿势的轨迹，稍后可用于生成轨迹草图。

以代码为策略的提示。LLM 大语言模型已经展示编写代码来执行机器人任务的能力（Liang，2022）。遵循 (Gonzalez Arenas et al., 2023) 中描述的类似方法，构建一个提示，其中包含有关 VLM 检测的场景中物体、机器人约束、夹持器方向和坐标系以及任务指令的文本描述。通过使用此提示，LLM 编写代码来生成一系列 3D 姿势——最初打算用运动规划器执行，然后可以重新利用它们在初始图像上绘制轨迹草图以调节 RT-Trajectory。

图像生成模型。由于轨迹条件表示为图像，因此可以使用文本引导的图像生成模型来生成轨迹草图，并提供描述任务的初始图像和语言指令。在该工作中，用 PaLM-E 风格 (Driess et al., 2023) 模型，该模型生成源自 ViT-VQGAN (Yu et al., 2022) 的矢量量化tokens，用于表示轨迹图像。一旦解除去token化，生成的图像便可用于调节 RT-Trajectory。

在实验中使用 Everyday Robots 的移动操作机器人，它有一个 7 自由度的手臂、一个两指夹持器和一个移动底座。

见过的技能。使用 RT-1 (Brohan et al., 2023b) 演示数据集进行训练。语言指令包括 8 种不同的操作技能（例如，Move Near），操作一组 17 种家用厨房用品；总的来说，该数据集包含 542 个可见任务中大约 73K 个真实机器人演示，这些演示是通过手动遥控收集的。下表显示了更详细的概述。

RT-Trajectory：通过事后轨迹草图实现机器人任务泛化

正文

请到「今天看啥」查看全文