24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。
远程操作是一种强大的方法,可以从演示中收集机器人学习所必需的机器人数据。远程操作系统的直观性和易用性对于确保高质量、多样化和可扩展的数据至关重要。为了实现这一点,提出一种沉浸式远程操作系统 Open-TeleVision,该系统允许操作员以立体方式主动感知机器人的周围环境。此外,该系统还会在机器人上镜像操作员的手臂和手部动作,创造一种沉浸式体验,就好像操作员的头脑被传送到机器人身上一样。为 2 个不同的人形机器人收集数据并训练四项长期精确任务(罐头分类、罐头插入、折叠和卸载)的模仿学习策略,可以验证系统的有效性,并将它们部署到现实世界中。
得益于大规模真实机器人数据 [1, 2],基于学习的机器人操控在过去几年中已发展到一个新的水平。遥控操作在模仿学习的数据收集中发挥着重要作用,它不仅提供准确而精确的操控演示,还提供自然而流畅的轨迹,使学习的策略可以推广到新环境的配置和任务。人们已经使用 VR 设备 [3, 2, 4, 5]、RGB 相机 [6, 7, 8]、可穿戴手套 [9, 10, 11] 和定制硬件 [12, 13] 研究了各种遥控方法。
大多数遥控系统有两个主要组件:驱动和感知。对于驱动,使用联合复制来操纵机器人可提供高控制带宽和精度 [12, 14, 15]。然而,这要求操作员和机器人物理上处于同一位置,不允许远程控制。每个机器人硬件都需要与一个特定的遥控硬件耦合。重要的是,这些系统还不能操作多指灵巧手。对于感知,最直接的方法是使用操作员自己的眼睛以第三人称视角 [7, 6, 3] 或第一人称视角 [16, 17] 观察机器人任务空间。这不可避免地会导致远程操作期间操作员视线被遮挡(例如被机械臂或躯干遮挡),并且操作员无法确保收集的演示已捕捉策略学习所需的视觉观察。重要的是,对于细粒度的操作任务,远程操作员很难在操作过程中近距离直观地观察目标。显示第三人称静态摄像机视图或在 VR 耳机中使用透视 [3, 2, 18] 也会遇到类似的挑战。
本文提出一个通用框架 Open-TeleVision 如图所示,可以执行高精度遥操作,适用于不同机器人和机械手上的不同 VR 设备。其用两个人形机器人进行实验,包括带有多指手的 Unitree H1 [19] 人形机器人和带有夹持器的 Fourier GR1 [20] 人形机器人,进行双手操作任务。通过捕捉人类操作员的手部姿势,重定位以控制多指机器人手或平行爪夹持器。依靠逆运动学,将操作员的手根位置转换为机械臂末端执行器位置。图中 a-e 显示机器人自主执行长期精度敏感任务,图中 f-j 显示机器人使用沉浸式遥控操作系统执行细粒度任务。a:卸载,手中传递;b:H1 罐头分类;c:GR-1 罐头分类;d:插入罐头;e:折叠毛巾;f;耳塞包装;g:钻孔;h:移液;i:两个操作员以交互方式遥控两个机器人,H1 机器人的操作员在波士顿,而两个机器人和 GR-1 操作员都在圣地亚哥(约 3000 英里外)。j:与人类的互动。
系统概览如图所示:
开发一个基于 Vuer [21] 的 Web 服务器,VR 设备将 SE(3) 中操作员的手、头和手腕姿势传输到服务器,服务器负责处理人机运动重定向。
如图所示机器人的头部、手臂和手如何跟随人类操作员的动作。
反过来,机器人以 480x640 的分辨率为每只眼睛传输立体视频。
整个循环以 60 Hz 的频率进行。
虽然系统与 VR 设备型号无关,但选择 Apple VisionPro 作为 VR 设备平台。
如图是Open-TeleVision 在两种硬件上的参考设计。
左图:
UnitreeH1[19],配有 6 DoF Inspire [22] 机械手。
头部包含偏航和俯仰电机。
右图:
带钳口夹持器的 Fourier GR-1 [20]。
主动的脖颈由制造商提供,配有偏航滚动和俯仰电机。
为了实现主动感知,设计了一个万向节(gimbal),其具有两个旋转自由度(偏航和俯仰),安装在 H1 的躯干顶部。
万向节由 3D 打印部件组装而成,由 DYNAMIXEL XL330-M288-T 电机 [23] 驱动。
对于 GR-1,用制造商提供的 3 自由度脖颈(偏航、滚动和俯仰)。
两个机器人都使用 ZED Mini [24] 立体摄像机来提供双目 RGB 流。
在设置中主要使用人形机器人,因为当前系统的遮挡和缺乏直观性的远程操作问题最为突出。
虽然系统是专门为人形机器人量身定制的,以最大限度地提高沉浸式远程操作体验的能力,但它足够灵活,可以应用于任何具有两个手臂和一个摄像头的设置。
手臂控制
。首先将人体手腕姿势转换到机器人的坐标系中。具体而言,机器人末端执行器和机器人头部之间的相对位置,预计与人体手腕和头部之间的相对位置相匹配。机器人手腕的方向,与人体手腕的绝对方向对齐,就在 Apple VisionPro 手部追踪后端的初始化期间估计。这种对末端执行器位置和方向的差异化处理,当机器人头部跟随人体头部移动时,可确保机器人末端执行器的稳定性。采用基于 Pinocchio [25,26,27] 的