ROBOTURK：一个通过模仿进行机器人技能学习的众包平台

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-03 00:05

正文

2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。

模仿学习解决强化学习的缺点（例如探索和奖励规范），推动了机器人操作任务学习的最新进展。然而，由于通过现有机制收集大量任务演示的难度，该领域的研究仅限于中等大小的数据集。本工作引入 ROBOTURK 来解决这一挑战。

ROBOTURK 是一个众包平台，使用广泛使用的移动设备（例如 iPhone）实现高质量的 6 自由度轨迹远程操作。在三个不同时间尺度（15-120 秒）操作任务上，对 ROBOTURK 进行评估，用户界面在任务完成时间方面与虚拟现实控制器等专用硬件在统计上是相似的。此外，观察到不良网络条件（例如低带宽和高延迟链路）不会显著影响远程用户在 ROBOTURK 上成功执行任务演示的能力。最后，收集一个驾驶员数据集证明 ROBOTURK 的有效性；使用 ROBOTURK，从远程工作人员那里收集 137.5 小时的操作数据，在总的 22 小时系统使用时间内，共计有超过 2200 次成功的任务演示。

有许多传统的机制可用于收集机器人学习的任务演示。一种流行的选择是通过运动引导机器人完成所需的轨迹 [14]。虽然直观，但这种监督机制可能很繁琐，并且通常仅限于收集数十个演示，而策略学习需要数百甚至数千个演示 [22]。或者，基于远程操作收集任务演示的技术已经使用了二十多年 [23, 24, 25]。远程操作监督可以通过现代游戏界面提供，例如键盘和鼠标 [26, 27]、视频游戏控制器 [28]、3D 鼠标 [29, 30]、专用主从接口 [31, 32]，或通过自由空间定位界面，例如虚拟现实 (VR) [33, 34, 35]。

游戏界面经常在轨迹中引入伪影，从而降低这些数据用于模仿的效用 [36]。例如，由于只对动作子空间进行并发控制，轨迹可以更长，表现出轴对齐运动，并且缺乏运动的自然变化。相比之下，自由-空间的定位界面（如 VR）使用户能够通过在 3D 空间中移动手动控制器来直接挪动机器人的末端执行器，从而实现细粒度的灵巧控制。有趣的是，Zhang [34] 表明，可以使用数百个 VR 演示的数据，制作更简单的算法（如行为克隆的变型）来学习短期操纵任务。然而，专用 VR 硬件和客户端计算资源的需求，限制了这些接口在众包平台上的部署，例如 Amazon Mechanical Turk，在这些平台上，普通工人更有可能拥有智能手机而不是 VR 硬件 [37, 38]。

在其他领域，大规模数据集的监督通常是在众包的帮助下收集的 [1, 3]。这就提供了一种可扩展的机制，能够对大量问题实例进行多样化的人工监督。然而，收集大量数据一直是连续控制任务的一大挑战，因为它们需要实时交互和来自注释者的反馈，这对远程遥控平台提出了严格的限制。机器人技能学习的数据收集机制，需要远程用户的演示，这些演示既要自然（游戏界面往往缺乏这一点），又要丰富（自由-空间的定位界面往往缺乏这一点）。

如图所示：ROBOTURK是一个基于云的大规模数据收集平台，可实现快速模仿引导下的技能学习。系统包括以下主要步骤：1) 指定任务，2) 使用 ROBOTURK 收集大量任务演示，3) 使用演示-增强的强化学习来学习策略，以及 4) 在感兴趣的领域部署学习的技能。

实验采用三个模拟任务：块举起（举起）、箱子拾取（拾取）和螺母-钉子组装（组装），如图所示。举起是一个简单的任务，其中 Sawyer 机械臂必须举起一个立方体，这可以作为诊断示例，而拾取和组装任务则分别是将物体分类放入箱子中和将螺母安装到钉子上，是更具挑战性的设置。这些都是 SURREAL 机器人套件 [39] 的一部分，这是一组使用 MuJoCo 物理引擎 [40] 开发的操作任务，其灵感来自世界机器人峰会 [41] 中的任务。

如图所示各种 UI 的比较：（a）界面及其允许的移动说明 — 轴对齐（键盘）、6-DoF（3D 鼠标）和自由-空间（VR 和手机）。（b）表：不同界面之间拾取任务完成时间分布的 Kolmogorov-Smirnov （K-S）统计数据，后跟相关 p-值。成对 K-S 统计量用于衡量底层分布之间的差异。基于 5% 的统计显着性水平，完成时间遵循以下顺序：手机 ≈ VR 控制器 ≻ 3D 鼠标 ≻ 键盘

ROBOTURK：一个通过模仿进行机器人技能学习的众包平台

正文

请到「今天看啥」查看全文