Open-TeleVision：具有沉浸式主动视觉反馈的远程操作

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-05 02:17

正文

24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。

远程操作是一种强大的方法，可以从演示中收集机器人学习所必需的机器人数据。远程操作系统的直观性和易用性对于确保高质量、多样化和可扩展的数据至关重要。为了实现这一点，提出一种沉浸式远程操作系统 Open-TeleVision，该系统允许操作员以立体方式主动感知机器人的周围环境。此外，该系统还会在机器人上镜像操作员的手臂和手部动作，创造一种沉浸式体验，就好像操作员的头脑被传送到机器人身上一样。为 2 个不同的人形机器人收集数据并训练四项长期精确任务（罐头分类、罐头插入、折叠和卸载）的模仿学习策略，可以验证系统的有效性，并将它们部署到现实世界中。

得益于大规模真实机器人数据 [1, 2]，基于学习的机器人操控在过去几年中已发展到一个新的水平。遥控操作在模仿学习的数据收集中发挥着重要作用，它不仅提供准确而精确的操控演示，还提供自然而流畅的轨迹，使学习的策略可以推广到新环境的配置和任务。人们已经使用 VR 设备 [3, 2, 4, 5]、RGB 相机 [6, 7, 8]、可穿戴手套 [9, 10, 11] 和定制硬件 [12, 13] 研究了各种遥控方法。

大多数遥控系统有两个主要组件：驱动和感知。对于驱动，使用联合复制来操纵机器人可提供高控制带宽和精度 [12, 14, 15]。然而，这要求操作员和机器人物理上处于同一位置，不允许远程控制。每个机器人硬件都需要与一个特定的遥控硬件耦合。重要的是，这些系统还不能操作多指灵巧手。对于感知，最直接的方法是使用操作员自己的眼睛以第三人称视角 [7, 6, 3] 或第一人称视角 [16, 17] 观察机器人任务空间。这不可避免地会导致远程操作期间操作员视线被遮挡（例如被机械臂或躯干遮挡），并且操作员无法确保收集的演示已捕捉策略学习所需的视觉观察。重要的是，对于细粒度的操作任务，远程操作员很难在操作过程中近距离直观地观察目标。显示第三人称静态摄像机视图或在 VR 耳机中使用透视 [3, 2, 18] 也会遇到类似的挑战。

本文提出一个通用框架 Open-TeleVision 如图所示，可以执行高精度遥操作，适用于不同机器人和机械手上的不同 VR 设备。其用两个人形机器人进行实验，包括带有多指手的 Unitree H1 [19] 人形机器人和带有夹持器的 Fourier GR1 [20] 人形机器人，进行双手操作任务。通过捕捉人类操作员的手部姿势，重定位以控制多指机器人手或平行爪夹持器。依靠逆运动学，将操作员的手根位置转换为机械臂末端执行器位置。图中 a-e 显示机器人自主执行长期精度敏感任务，图中 f-j 显示机器人使用沉浸式遥控操作系统执行细粒度任务。a：卸载，手中传递；b：H1 罐头分类；c：GR-1 罐头分类；d：插入罐头；e：折叠毛巾；f；耳塞包装；g：钻孔；h：移液；i：两个操作员以交互方式遥控两个机器人，H1 机器人的操作员在波士顿，而两个机器人和 GR-1 操作员都在圣地亚哥（约 3000 英里外）。j：与人类的互动。

手臂控制。首先将人体手腕姿势转换到机器人的坐标系中。具体而言，机器人末端执行器和机器人头部之间的相对位置，预计与人体手腕和头部之间的相对位置相匹配。机器人手腕的方向，与人体手腕的绝对方向对齐，就在 Apple VisionPro 手部追踪后端的初始化期间估计。这种对末端执行器位置和方向的差异化处理，当机器人头部跟随人体头部移动时，可确保机器人末端执行器的稳定性。采用基于 Pinocchio [25，26，27] 的

Open-TeleVision：具有沉浸式主动视觉反馈的远程操作

正文

请到「今天看啥」查看全文