ARCap：通过AR反馈为机器人学习收集高质量人类演示

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-13 00:05

正文

24年10月来自斯坦福李飞飞团队的论文“ARCap: Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback”。

模仿学习人类演示的最新进展，在教授机器人操作技能方面取得了令人鼓舞的成果。为了进一步扩大训练数据集，最近的研究开始使用便携式数据收集设备，而无需物理机器人硬件。然而，由于数据收集过程中缺乏机器人反馈，数据质量在很大程度上取决于用户的专业知识，而且许多设备仅限于特定的机器人具身。ARCap，是一种便携式数据收集系统，它通过增强现实 (AR) 和触觉警告提供视觉反馈，以指导用户收集高质量的演示。ARCap 使新手用户能够收集与机器人运动学相匹配的机器人可执行数据，并避免与场景发生碰撞。利用从 ARCap 收集的数据，机器人可以执行具有挑战性的任务，例如在杂乱的环境中进行操作和长视野跨具身操作。ARCap 完全开源且易于标定；所有组件均由现成的产品构建。

开发用于协助完成家务的机器人有可能提高人类的生活质量并增强人类的能力。要实现这一点，机器人必须能够在非结构化且通常杂乱的环境中操纵日常物体。近年来，使用人类演示的模仿学习取得了重大进展。通过遥控机器人系统收集的演示数据提供了精确的域内观察-动作对，从而能够通过监督学习实现有效的机器人策略学习 [46]。然而，对机器人系统和熟练人类操作员的要求大大限制了数据收集的可访问性和可扩展性。

或者，可以使用便携式系统收集人类演示，而无需物理机器人硬件 [35, 6, 38]。这些系统利用人类的灵活性和适应性直接操纵野外物体，从而有助于创建大规模、多样化的人类演示数据集。然而，由于缺乏机器人硬件，如果不经过多步骤的过程，收集到的演示是否可用于训练机器人策略并不立即显而易见。

首先，人类和机器人在具身上的差异需要数据重定向。其次，必须通过在与真实目标交互的实际机器人上重放动作来验证重定向的数据。最后，必须使用经过验证的数据训练机器人策略。演示的成功在很大程度上取决于演示者的经验以及对机器人和人类在几何和能力差异的认识。由于机器人的关节和速度限制，在重定向阶段可能会发生故障；由于偶然碰撞，在验证阶段可能会发生故障；或者由于无效数据的混合，在策略训练阶段可能会发生故障。

有一个直接的问题：有没有办法在数据收集过程中通知用户潜在的故障，以便他们可以调整和收集更高质量的数据？从机器人遥操作中观察的一个关键现象是，当人类看到不正确的机器人动作时，他们会迅速调整遥操作方式来纠正错误。这种强大的视觉反馈有助于用户收集可执行且适合机器人具身的数据。鉴于视觉反馈在遥操作中的成功，就出现另外一个问题：是否可以在便携式数据收集系统中模拟类似的反馈，以指导用户收集高质量的演示数据？

从演示中学习。模仿学习 (IL) 已被证明能有效地帮助机器人执行各种操作任务 [4、20、34、23、11、13、2、1]。虽然传统的 IL 方法（如动态运动基元 DMP 和概率运动基元 PrMP [33、24、29、30]）具有很高的采样效率，但它们在处理高维观测空间时面临挑战。相比之下，最近利用深度神经网络的 IL 方法可以直接从原始图像输入中学习策略 [27、14、49]，即使对于具有双手操纵器的复杂机器人系统也是如此 [47、17、42]。尽管这些方法很有效，但扩展训练数据量仍然是一个重大障碍。遥操作是近期研究中常用的数据收集方法 [44, 14, 26, 21, 39, 48, 3, 41, 16, 25, 46, 15, 5, 31, 19, 9, 32, 18]。许多基于 VR 控制器或手势追踪 [22, 5, 9, 18] 和主-从关节映射 [46, 15, 45, 42, 37, 12] 的低成本遥操作系统被广泛使用。然而，尽管这些动作输入设备成本低廉，但使用遥操作收集数据仍然需要实际机器人的存在，这使得大规模分发它们的成本很高。

无需机器人的数据收集系统。在没有机器人的情况下在野外收集数据并用这些数据训练机器人已经成为降低系统总成本的一个有吸引力的方向。先前的研究如 [7, 38, 35] 提出了低成本的野外数据收集系统。与直接使用人体视频进行训练[36]相比，这些系统捕捉到了更细粒度的人体运动，并帮助机器人完成复杂的任务，如泡茶[38]、擦盘子[7, 38]和使用空气炸锅[35]。

ARCap 是一个基于 AR 的数据收集接口和策略学习框架，旨在将人手运动捕捉数据传输到机器人控制策略。ARCap 系统设计的主要特点是：

• 实时反馈。AR 提供机器人状态的实时可视化，引导用户在没有实体机器人的情况下收集高质量且机器人可重现的演示数据。
• 跨具身。AR 可视化支持平行钳口夹持器和多指灵巧手，允许用户使用同一系统收集不同类型的机器人硬件的数据。
• 便携性。该系统具有独立的电源、存储和无线跟踪功能，可在野外收集数据。

如图所示：ARCap 系统概述。（a）收集人手运动数据。（b）提供实时 AR 反馈，在 AR 显示中可视化重定位到人手的虚拟机器人。（c）推出使用收集数据训练的机器人策略。

ARCap 系统设计

便携式机器人数据收集接口 [38, 7, 35] 的最新进展，使得无需物理机器人即可扩大机器人数据收集。但是，由于在数据收集过程中没有来自机器人的实时反馈，因此无法保证收集的数据可以在实际机器人上重现。已经观察到几种故障模式：（1）人类移动速度太快，机器人无法复制；（2）人与机器人之间的尺寸差异导致机器人与环境发生碰撞，即使人类不会发生碰撞；（3）一个数据收集系统是为一个机器人具身设计的，需要为不同的机器人末端执行器重新设计。

信息丰富的 AR 反馈

在 ARCap 中，实现视觉和触觉反馈，告知用户有关摄像头可见性、机器人运动学、关节速度限制以及机器人与环境之间潜在碰撞的信息。

a) 实时可见性检查：模仿学习的一个常见失败模式，是操作场景并不总是可见的。这个问题经常发生，因为机器人使用的 RGB-D 相机视野通常比用于数据收集的相机（本文例子是 Quest 3 的透视相机）更窄。为了帮助演示者在数据收集期间始终将操作场景保持在深度相机的视野范围内，渲染一个矩形框来可视化 RGB-D 相机的实际视野，如图所示。在收集数据时，用户需要主动将场景保持在框架内，以确保正确记录视觉数据。

b) 实时重定向：在为特定机器人收集数据时，机器人的运动学可能与人类的手臂和手有显著不同。为了提醒用户运动极限，在 AR 中渲染一个虚拟机器人，并将其重定位到用户的手上。不同的末端执行器可能有不同的重定向方法。在数据收集之前，用户将虚拟机器人放置在世界坐标系中的固定位置。在数据收集过程中，虚拟机器人的末端执行器将跟踪用户的手；每当用户用手与场景中的目标交互时，他们都需要考虑虚拟机器人是否可以执行这样的动作。例如，对于配备平行钳口夹持器的虚拟机器人，如果用户尝试使用手指步态重定位目标，虚拟机器人执行的动作将看起来无效。由于机器人手臂的每个关节都有其速度限制，虚拟机器人也会实施此类限制，并且不会超过速度限制来跟踪用户的输入。如果用户手移动得太快，用户的手和机器人末端执行器之间就会出现明显的视觉不匹配；矩形框也会闪烁黄色，提醒用户机器人的速度有限制。

c) 实时碰撞检查：为了提醒用户机器人与环境之间可能发生的碰撞，检查实际场景与虚拟机器人之间的碰撞。人类很难通过透视相机准确感知深度；仅观察虚拟机器人的运动不足以避免碰撞。当虚拟机器人与预扫描的静态场景发生碰撞时，通过振动所安装的控制器，添加额外的触觉碰撞反馈。矩形框也会闪烁，以提供更强的碰撞反馈信号，如上图所示。

使用这些实时反馈信号，用户可以调整他们的数据收集策略或删除严重违反约束的演示。

带一个系统的跨具身

ARCap 可以可视化重定位到用户手上的各种末端执行器，从而无需硬件修改即可收集不同机器人具身的数据。对于任何新的机器人具身，只要有一个允许机器人重复人类演示的重定位过程，ARCap 就可以用于数据收集。针对附在 Franka Panda 手臂上的不同末端执行器，提出两种实时重定向过程：（1）Leap Hand，一种完全驱动的四指灵巧手；（2）Fin-ray 夹持器，一种柔性平行钳口夹持器。

灵巧手。与 [38] 类似，用逆运动学（IK）将灵巧手指尖与世界坐标系中人类的指尖进行匹配。逆运动学问题分两步解决。首先，求解Leap Hand手腕姿势以匹配任务控制器提供的人类手腕姿势，然后求解机器人指尖位置以匹配 Rokoko 数据手套跟踪的人类指尖位置。由于Leap Hand的每个手指都有一个冗余自由度，需要添加零空间调节以鼓励自然的手部姿势并避免手指之间的自碰撞。用 Pybullet[8] 的null space IK 解算器，它根据先前的解决方案实时求解当前关节角度。
平行钳口夹持器。对于平行钳口夹持器，用户使用食指和拇指进行模仿。如图所示，夹持器尖端的中点与用户食指和拇指之间的中点对齐，而控制器跟踪的手腕方向则设置夹持器的方向。由于夹持器只能完全打开或闭合，因此其状态由用户食指和拇指之间的距离决定。如果在打开状态下距离大于夹持器宽度，则设置为打开；否则，设置为闭合。在真实机器人上，夹持器以 1Hz 的频率响应打开和闭合命令。在重定向过程中，如果用户过于频繁地打开和闭合手，虚拟夹持器在切换到之前的状态后 1 秒内不会打开或闭合。

便携且可复制的设计

ARCap 旨在成为一种低成本、便携的系统，易于复制和标定，同时准确捕捉详细的手部动作。它还可以确保用户在执行各种任务时感到舒适，并尽量减少阻碍。为了实现这些目标，ARCap 围绕 Meta Quest 3 VR 耳机构建，如图所示。耳机既可用作反馈显示器，又可用作传感器 hub，为其自身和两个控制器提供空间跟踪。RealSense D435 摄像头使用 3D 打印支架安装在耳机顶部，捕捉 3D 视觉信息，这些信息以点云形式存储。由于访问内部 Quest 3 摄像头很困难，ARCap 的未来版可以利用 AR 耳机的内置 RGB-D 摄像头。

对于手腕和手部动作捕捉，Quest 3 控制器连接到 Rokoko 数据手套的顶部。控制器跟踪手腕相对于耳机的位置和方向，而数据手套捕捉指尖相对于手腕的位置。使用头戴式设备的内置 SLAM 功能，可以访问世界坐标系内的视觉和运动数据。

由于需要微调组件之间的相对变换，因此标定系统可能非常耗时。为了简化此过程，摄像头直接安装在头戴式设备上，控制器通过独特的 3D 打印支架连接到手套上，允许未来的 ARCap 设置重复使用相同的标定参数。连接笔记本电脑以处理视觉数据并为收集的数据提供额外的存储空间。与

ARCap：通过AR反馈为机器人学习收集高质量人类演示

正文

请到「今天看啥」查看全文