专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
姑苏晚报  ·  刚刚,苏州公积金中心回应! ·  12 小时前  
媒哥媒体招聘  ·  上海中西书局有限公司招聘! ·  2 天前  
媒哥媒体招聘  ·  明星造型团队THEICON急招造型师等岗! ·  3 天前  
天玑-无极领域  ·  1、降低杠杆,增加容错率。2、减少交易频次, ... ·  2 天前  
岳西网  ·  曝光!岳西街头他们被拍下! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Open-TeleVision:具有沉浸式主动视觉反馈的远程操作

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-05 02:17

正文

24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。

远程操作是一种强大的方法,可以从演示中收集机器人学习所必需的机器人数据。远程操作系统的直观性和易用性对于确保高质量、多样化和可扩展的数据至关重要。为了实现这一点,提出一种沉浸式远程操作系统 Open-TeleVision,该系统允许操作员以立体方式主动感知机器人的周围环境。此外,该系统还会在机器人上镜像操作员的手臂和手部动作,创造一种沉浸式体验,就好像操作员的头脑被传送到机器人身上一样。为 2 个不同的人形机器人收集数据并训练四项长期精确任务(罐头分类、罐头插入、折叠和卸载)的模仿学习策略,可以验证系统的有效性,并将它们部署到现实世界中。


得益于大规模真实机器人数据 [1, 2],基于学习的机器人操控在过去几年中已发展到一个新的水平。遥控操作在模仿学习的数据收集中发挥着重要作用,它不仅提供准确而精确的操控演示,还提供自然而流畅的轨迹,使学习的策略可以推广到新环境的配置和任务。人们已经使用 VR 设备 [3, 2, 4, 5]、RGB 相机 [6, 7, 8]、可穿戴手套 [9, 10, 11] 和定制硬件 [12, 13] 研究了各种遥控方法。

大多数遥控系统有两个主要组件:驱动和感知。对于驱动,使用联合复制来操纵机器人可提供高控制带宽和精度 [12, 14, 15]。然而,这要求操作员和机器人物理上处于同一位置,不允许远程控制。每个机器人硬件都需要与一个特定的遥控硬件耦合。重要的是,这些系统还不能操作多指灵巧手。对于感知,最直接的方法是使用操作员自己的眼睛以第三人称视角 [7, 6, 3] 或第一人称视角 [16, 17] 观察机器人任务空间。这不可避免地会导致远程操作期间操作员视线被遮挡(例如被机械臂或躯干遮挡),并且操作员无法确保收集的演示已捕捉策略学习所需的视觉观察。重要的是,对于细粒度的操作任务,远程操作员很难在操作过程中近距离直观地观察目标。显示第三人称静态摄像机视图或在 VR 耳机中使用透视 [3, 2, 18] 也会遇到类似的挑战。

本文提出一个通用框架 Open-TeleVision 如图所示,可以执行高精度遥操作,适用于不同机器人和机械手上的不同 VR 设备。其用两个人形机器人进行实验,包括带有多指手的 Unitree H1 [19] 人形机器人和带有夹持器的 Fourier GR1 [20] 人形机器人,进行双手操作任务。通过捕捉人类操作员的手部姿势,重定位以控制多指机器人手或平行爪夹持器。依靠逆运动学,将操作员的手根位置转换为机械臂末端执行器位置。图中 a-e 显示机器人自主执行长期精度敏感任务,图中 f-j 显示机器人使用沉浸式遥控操作系统执行细粒度任务。a:卸载,手中传递;b:H1 罐头分类;c:GR-1 罐头分类;d:插入罐头;e:折叠毛巾;f;耳塞包装;g:钻孔;h:移液;i:两个操作员以交互方式遥控两个机器人,H1 机器人的操作员在波士顿,而两个机器人和 GR-1 操作员都在圣地亚哥(约 3000 英里外)。j:与人类的互动。


系统概览如图所示: 开发一个基于 Vuer [21] 的 Web 服务器,VR 设备将 SE(3) 中操作员的手、头和手腕姿势传输到服务器,服务器负责处理人机运动重定向。


如图所示机器人的头部、手臂和手如何跟随人类操作员的动作。 反过来,机器人以 480x640 的分辨率为每只眼睛传输立体视频。 整个循环以 60 Hz 的频率进行。 虽然系统与 VR 设备型号无关,但选择 Apple VisionPro 作为 VR 设备平台。


如图是Open-TeleVision 在两种硬件上的参考设计。 左图: UnitreeH1[19],配有 6 DoF Inspire [22] 机械手。 头部包含偏航和俯仰电机。 右图: 带钳口夹持器的 Fourier GR-1 [20]。 主动的脖颈由制造商提供,配有偏航滚动和俯仰电机。


为了实现主动感知,设计了一个万向节(gimbal),其具有两个旋转自由度(偏航和俯仰),安装在 H1 的躯干顶部。 万向节由 3D 打印部件组装而成,由 DYNAMIXEL XL330-M288-T 电机 [23] 驱动。 对于 GR-1,用制造商提供的 3 自由度脖颈(偏航、滚动和俯仰)。 两个机器人都使用 ZED Mini [24] 立体摄像机来提供双目 RGB 流。 在设置中主要使用人形机器人,因为当前系统的遮挡和缺乏直观性的远程操作问题最为突出。 虽然系统是专门为人形机器人量身定制的,以最大限度地提高沉浸式远程操作体验的能力,但它足够灵活,可以应用于任何具有两个手臂和一个摄像头的设置。

手臂控制 。首先将人体手腕姿势转换到机器人的坐标系中。具体而言,机器人末端执行器和机器人头部之间的相对位置,预计与人体手腕和头部之间的相对位置相匹配。机器人手腕的方向,与人体手腕的绝对方向对齐,就在 Apple VisionPro 手部追踪后端的初始化期间估计。这种对末端执行器位置和方向的差异化处理,当机器人头部跟随人体头部移动时,可确保机器人末端执行器的稳定性。采用基于 Pinocchio [25,26,27] 的







请到「今天看啥」查看全文