BiGym：基于演示的移动双手操作基准

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-27 01:46

正文

24年7月来自伦敦帝国学院的 Dyson 机器人学习实验室论文“BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark”。

BiGym，是一个用于移动双手演示-驱动机器人操作的新基准和学习环境。BiGym 具有 40 个不同的家庭环境任务，从简单的目标到达，到复杂的厨房清洁。为了准确捕捉现实世界的表现，为每个任务提供人工收集的演示，反映现实世界机器人轨迹中的各种模式。BiGym 支持各种观察，包括本体感受数据和视觉输入（例如 RGB）以及来自 3 个摄像头视图的深度。为了验证 BiGym 的可用性，在环境中对最先进的模仿学习算法和演示驱动的强化学习算法进行了彻底的基准测试，并讨论了未来的机会。

机器学习基准对于衡量和理解研究算法的进展具有重要意义。值得注意的基准包括用于图像理解的 ImageNet [1]、用于自动驾驶的 KITTI [2] 和用于基于语言的问答的 SQuAD [3]。在机器人技术领域，先前的基准大大降低了迭代和开发算法的成本。例子包括 OpenAI Gym [4]、DeepMind Control Suite [5] 和 MetaWorld [6]。然而，所有这些基准都专注于具有密集形状奖励的纯强化学习 (RL) ，限制了它们在长期操作任务中的应用，因为准确定义奖励函数具有挑战性。

虽然制作奖励很困难，但获得专家轨迹（例如来自人类演示的轨迹）相对简单。这一优势推动了演示驱动方法在机器人学习社区中的流行，具体表现为模仿学习 (IL) [7、8、9、10、11、12、13] 和演示驱动的强化学习 [14、15、16、17]。为了支持构建演示驱动智体的研究，RLBench [18] 的创建包含各种单臂固定操作任务，其中专家演示由运动规划器生成。使用运动规划器允许 RLBench 纯粹在模拟中生成大量演示数据，但是，输出轨迹通常要么由于基于采样的规划器固有的随机性而不自然，要么与嘈杂的真实世界人类演示相比具有不切实际的狭窄轨迹分布。此外，社区的进展在大量 RLBench 任务上开始停滞不前，尤其是最近的 3D 次优姿势智体 [10、11、16、17、19、20、21]。

这些限制凸显了对新基准的需求，该基准提供：(1) 更自然的演示，如现实世界机器人数据中看到的演示；(2) 一组新的具有挑战性的任务，其中最先进的算法可能表现不佳。

为此，提出 BiGym，这是一个人形具身的演示驱动移动双手操作基准。BiGym 涵盖 40 个视觉移动操作任务，从简单的任务（如在排水器之间移动盘子）到与洗碗机等铰接式物体交互，如图所示。

基于 MuJoCo [42] 构建 BiGym 模拟环境。根据 Unitree H1 机器人的公开模型实施该平台。由于原始 H1 没有配备夹持器，在每个手臂上附加一个带有驱动腕关节的 Robotiq 2F-85 夹持器。平行夹持器很容易与其他灵巧的操纵器互换。

如上图 (a) 所示，在机器人上安装了三个摄像头：前额、左手腕和右手腕。每个摄像头都可以生成 RGB 和深度观测，这支持使用任一类型观测的多种类型算法。因此，观察空间定义为 O = {Ihead, Ileft, Iright, Dhead, Dleft, Dright, s/proprio}，其中 I 是 RGB 图像，D 是深度图像，s/proprio 是机器人的本体感受状态。如果需要，还可以轻松获得其他观察结果，例如夹持器姿势和机器人姿势。

机器人社区仍不清楚哪种动作模式最适合移动双手操作任务中的复杂体现。因此，在 BiGym 中，为用户提供灵活的配置，自定义他们想要使用的动作模式，并将选择权留给用户。具体来说，提供了两种现成的动作模式：全身动作模式和双手动作模式，具有增量动作或绝对动作。对于全身动作模式，允许完全控制人形关节。这允许研究运动中的全身操纵。在双手动作模式下，将人形机器人的下半身视为由经典控制器管理的全向浮动底座，从而简化了控制。在这种情况下，可以专注于上半身的双手移动操控技能。

BiGym 中的场景，是基于 dm control 的自定义面向目标 API 从 MuJoCo MJCF 模型创建的 [5]。BiGym 中提供的所有 MJCF 模型都是从公开可用的 3D 模型创建的。许多其他 3D 模型都经过处理以用于 BiGym：减少网格以减少多边形总数，分离铰接物体的移动部件，添加所需的关节和执行器，并创建凸碰撞网格。目前，BiGym 提供 46 种高质量资产，可以重复使用以促进新环境的创建。除了刚体模型外，BiGym 还提供一组铰接模型，例如洗碗机和可定制的厨房模块。

基准测试的界面遵循用于训练 IL 和 RL 智体的标准 Gymnasium API [43]。如图展示了 RL 智体训练的典型工作流程。

BiGym：基于演示的移动双手操作基准

正文

请到「今天看啥」查看全文