DexCap：可扩展、便携的运动捕捉数据收集系统，用于灵巧操作

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-18 01:23

正文

24年7月来自斯坦福的论文“DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation”。

从人类手部运动数据中进行模仿学习，为现实世界的操作任务中赋予机器人de 类人灵活性，提供了一种有希望的途径。尽管有这种潜力，但仍存在重大挑战，特别是现有手部运动捕捉 (mocap) 系统的可移植性以及将 mocap 数据转换为有效机器人策略的复杂性。为了解决这些问题，一个便携式手部运动捕捉系统 DEXCAP，以及一种模仿算法 DEXIL，用于直接从人手 mocap 数据训练灵巧的机器人技能。DEXCAP 基于 SLAM 和电磁场以及对环境的 3D 观察，提供精确、抗遮挡的手腕-手指运动跟踪。利用这个数据集，DEXIL 采用逆运动学和基于点云的模仿学习，用机器人手无缝复制人类动作。除了直接从人类运动中学习之外，DEXCAP 还在策略推出期间提供可选的人-在-环校正机制，改进并进一步提高任务性能。通过对六项具有挑战性的灵巧操作任务进行广泛的评估，该方法不仅展示卓越的性能，而且还展示系统从野外动作捕捉数据中有效学习的能力，在追求人类水平的机器人灵巧性中，为未来数据收集方法铺平了道路。

构建机器人系统来执行日常操作任务是一项长期存在的挑战。生活环境和日常物品在设计时都考虑到了人手的功能，这对开发未来的家用机器人提出了巨大的挑战。机器人灵活性方面的最新突破，尤其是在控制具有高自由度的多指机械手方面，已经显示出巨大的潜力 [1- 3]。然而，由于硬件和算法方面的挑战，机械手在操作任务中模仿人类水平的灵活性，仍未解决。

模仿学习 (IL) [4, 5] 最近朝着这一目标 [6, 7] 取得了长足的进步，特别是通过使用人类演示数据进行监督训练。一种常用的数据收集方法是遥控机械手来执行任务。然而，由于需要真实的机器人系统和缓慢的机器人动作，这种方法的扩展成本很高。另一种方法是在操作过程中直接跟踪人手运动而不控制机器人。当前的系统主要基于视觉，使用单视角摄像头。然而，除了跟踪算法是否能提供对机器人策略学习至关重要的精确 3D 信息的问题之外，这些系统还容易受到手部与物体交互过程中经常发生的视觉遮挡影响。

用于收集灵巧操作数据的基于视觉方法，有一个更好替代方案是通过动作捕捉 (mocap)。Mocap 系统提供准确的 3D 信息，并且对视觉遮挡具有鲁棒性。因此，人类操作员可以直接用手与环境交互，这样更快而且更容易扩展，因为不需要机器人硬件。为了将手部动作捕捉系统扩展到日常任务和机器人学习环境中的数据收集，合适的系统理想情况下应该是便携的，并且对于长时间的捕捉会话具有鲁棒性，提供准确的手指和手腕姿势，以及 3D 环境信息。大多数手部动作捕捉系统不便携，并且依赖于经过良好标定的第三视角相机。虽然电磁场 (EMF) 手套克服了这个问题，但它们无法跟踪世界框架中的 6-DoF 手腕姿势，这对于末端执行器的策略学习很重要。基于 IMU 的全身套装等设备可以监测手腕位置，但随着时间的推移容易出现漂移。

除了硬件挑战之外，使用动作捕捉数据进行机器人模仿学习也存在算法挑战。虽然灵巧的机器人手可以直接从人手数据中学习，但机器人手和人手在尺寸、比例和运动结构方面的固有差异，需要创新算法来克服这些体现差距。

灵巧操作一直是机器人领域的一个长期研究领域 [15–19]，由于自由度高，给规划和控制带来了重大挑战。传统的最优控制方法 [17–19] 通常需要简化接触，而这在更复杂的任务中通常是站不住脚的。最近，人们开始探索强化学习，以在模拟环境中学习灵巧策略，对任务或环境的假设最少 [2, 20– 29]。学习到的策略可以解决复杂的任务，包括手中物体重定位 [2, 20, 23–25, 28]、双手操作 [26, 30] 和长范围操作 [22, 27]。然而，由于模拟与现实之间的差距，将学习的策略部署到现实世界的机器人上仍然具有挑战性。另一方面，模仿学习侧重于直接从现实世界的演示数据中学习，这些数据可以通过远程传送 [1, 6, 31, 32] 或人类视频 [3, 33, 34] 获得。 DIME [31] 使用 VR 遥控灵巧手进行数据收集；Qin [35] 使用 RGB 摄像头跟踪遥控操作的手部姿势； DexTransfer [36] 使用人体动作捕捉数据来引导灵巧的抓握； DexMV [33]、 DexVIP [34] 和 VideoDex [3] 利用人体视频数据来学习运动先验，但通常需要在模拟或真实的机器人遥控数据中进行额外的训练。

人手动作捕捉是计算机视觉和图形学应用的重要技术。之前的大多数系统都是基于摄像头、IMU 或电磁场 (EMF) 的。基于摄像头的系统使用单目摄像头 [37–39]、RGB-D 摄像头 [40–42]、VR 耳机 [43] 或带标记的多视角摄像头 [44, 45]。然而，在手与物体交互中经常发生严重遮挡的情况下，手部运动跟踪的质量会迅速下降。其中一些系统还需要第三视角标定的摄像头，这些摄像头不便携或不可扩展。最近，惯性测量单元 (IMU) 已用于野外人体动作捕捉 [46–50]。然而，它们中的大多数都专注于全身动作捕捉，而忽略了细粒度的手指动作。基于 EMF 的动作捕捉手套设计用于捕捉手指动作，广泛用于灵巧的遥控操作 [51–53]。然而，手套无法跟踪环境中的 6-自由度手掌姿势，并且无法通过视觉观察来训练机器人策略。

模仿学习 (IL) 使机器人能够成功执行各种操作任务 [4, 54–60]。传统的 IL 算法（例如 DMP 和 PrMP [61–64]）具有较高的学习样本效率，但在处理高维观测值方面的能力有限。相比之下，最近基于深度神经网络构建的 IL 方法可以使用原始图像观察输入学习策略 [65, 66]，即使对于具有双手手臂的高阶机器人系统也是如此 [67, 68]。尽管模仿学习非常有效，但它面临的一个关键挑战是如何扩大训练数据。先前的研究主要关注遥操作数据 [66, 69–77]，由于机器人硬件的要求，这些数据的收集成本很高。最近，从人体运动数据中学习开始受到更多关注，因为它允许在没有机器人硬件的情况下收集数据 [78]。通过利用人体视频 [11, 79] 和手部轨迹 [10, 80–82]，已经显示出有希望的结果，可以用更少的人工来训练策略。然而，这些人体运动是在二维图像空间中 [80, 83, 84]，无法在三维环境中直接训练 6 自由度操作策略，通常需要额外的遥操作数据来弥补这一差距 [10, 11, 79]。最近，人-在-环校正算法在机器人学习中也显示出了良好的效果 [85–87]。

最近，低成本手持夹持器的发展，已显示出在无需机器人硬件的情况下收集机器人操作数据的良好效果 [88–94]。所有这些系统都是为平行夹持器数据收集过程而设计和使用的。

为了解决这些挑战，该工作同时引入了一种便携式手部动作捕捉系统 DEXCAP 和一种模仿算法 DEXIL，使机器人能够直接从人手动作捕捉数据中学习灵巧的操作策略。如图所示，DEXCAP是一款便携式手部动作捕捉系统，可实时（60Hz）跟踪手腕的 6-DoF 姿势和手指运动。该系统包括一个动作捕捉手套，用于跟踪手指关节；一个安装在每个手套顶部的摄像头，用于使用 SLAM 跟踪手腕的 6-DoF 姿势；以及一个位于胸部的 RGB-D 激光雷达摄像头，用于观察 3D 环境。

跟踪手指运动。系统使用电磁场 (EMF) 手套，与基于视觉的手指跟踪系统相比具有显著优势，特别是在对手与物体交互中经常发生的视觉遮挡鲁棒性方面。在系统中，使用 Rokoko 动作捕捉手套跟踪手指运动，如图所示。每只手套的指尖都嵌入了一个微小的磁传感器，而信号接收器集线器则放置在手套的背面。每个指尖的 3D 位置是通过从中心到传感器的相对 3D 平移来测量的。图(a) 该装置包括胸背带上的 3D 打印支架，顶部配有 Realsense L515 LiDAR 摄像头，下方配有三个 Realsense T265 跟踪摄像头。图 (b) 背包中的英特尔 NUC 和移动电源为系统供电，可收集大约 40 分钟的数据。图 (c) T265 摄像头最初处于已知姿势去标定，在数据收集期间重定位到手持支架上监控手掌位置，通过一个点击式设计确保一致性。Rokoko 手套可捕捉手指运动，准确跟踪手指关节位置。

指尖是手与物体交互时接触最频繁的区域（HO-3D [41]、GRAB [44]、ARCTIC [45] ）。本文用逆运动学 (IK) 匹配指尖位置来重新定位手指运动。具体来说，部署一种 IK 算法，可实时生成平滑而准确的指尖运动 [96–98]，以确定机械手的 16 维关节位置。这可确保机器人指尖与 DEXCAP 数据中的人类指尖对齐。考虑到 LEAP 手的设计（具有四个手指），在 IK 计算期间排除小手指信息来调整流程。此外，在 mocap 数据中捕获的 6-DoF 手腕姿势，可作为 IK 算法中手腕姿势的初始参考。然后，将手腕的 6-DoF 姿势 pt = [Rt|Tt] 和 LEAP 手的手指关节位置 Jt 用作机器人的本体感受状态 st = (pt,Jt)。在设置中使用位置控制，并将机器人的动作标签定义为 at = st+1 的下一个未来状态。

观察和状态表征选择，对于训练机器人策略至关重要。用相机参数将 DEXCAP 数据中激光雷达相机捕获的 RGB-D 图像转换为点云。与 RGB-D 输入相比，这种额外的转换提供了两个好处。首先，由于 DEXCAP 允许人类躯干在数据采集过程中自然移动，因此直接使用 RGB-D 输入需要考虑移动的相机坐标系。将点云观测值转换为一致的世界坐标系（定义为 mocap 开始时主 SLAM 相机的坐标框架，这里主相机在上图 (c) 中以红色标记），隔离并消除躯干运动，从而产生稳定的机器人观测值。其次，点云在编辑和与机器人操作空间对齐方面提供了灵活性。鉴于在野外捕获的一些运动可能超出机器人的可达范围，调整点云观测值和运动轨迹的位置可确保它们在机器人操作范围内的可行性。根据这些发现，动作捕捉数据中的所有 RGB-D 帧，都被处理成与机器人空间对齐的点云，并且排除了与任务无关的元素（例如桌面点）。因此，这些经过精炼的点云数据成为机器人策略 π 的观察输入。

DexCap：可扩展、便携的运动捕捉数据收集系统，用于灵巧操作

正文

请到「今天看啥」查看全文