专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
西安头条  ·  不能吃!已接连抢救2人!平时很常见 ·  5 小时前  
逆行的狗  ·  碎片时间刷CIA题-Anki牌组 ·  7 小时前  
逆行的狗  ·  碎片时间刷CIA题-Anki牌组 ·  7 小时前  
半岛网官微  ·  “1个月后才有床位”!这个“羞于启齿”的病, ... ·  21 小时前  
哈密伊州区微生活  ·  穿袜子和不穿袜子睡觉,哪个睡得更香? ·  2 天前  
重庆之声  ·  守护健康 | ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

BiGym:基于演示的移动双手操作基准

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-27 01:46

正文

24年7月来自伦敦帝国学院的 Dyson 机器人学习实验室论文“BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark”。

BiGym,是一个用于移动双手演示-驱动机器人操作的新基准和学习环境。BiGym 具有 40 个不同的家庭环境任务,从简单的目标到达,到复杂的厨房清洁。为了准确捕捉现实世界的表现,为每个任务提供人工收集的演示,反映现实世界机器人轨迹中的各种模式。BiGym 支持各种观察,包括本体感受数据和视觉输入(例如 RGB)以及来自 3 个摄像头视图的深度。为了验证 BiGym 的可用性,在环境中对最先进的模仿学习算法和演示驱动的强化学习算法进行了彻底的基准测试,并讨论了未来的机会。


机器学习基准对于衡量和理解研究算法的进展具有重要意义。值得注意的基准包括用于图像理解的 ImageNet [1]、用于自动驾驶的 KITTI [2] 和用于基于语言的问答的 SQuAD [3]。在机器人技术领域,先前的基准大大降低了迭代和开发算法的成本。例子包括 OpenAI Gym [4]、DeepMind Control Suite [5] 和 MetaWorld [6]。然而,所有这些基准都专注于具有密集形状奖励的纯 强化学习 (RL) ,限制了它们在长期操作任务中的应用,因为准确定义奖励函数具有挑战性。

虽然制作奖励很困难,但获得专家轨迹(例如来自人类演示的轨迹)相对简单。这一优势推动了 演示驱动方法 在机器人学习社区中的流行,具体表现为 模仿学习 (IL) [7、8、9、10、11、12、13] 和演示驱动的 强化学习 [14、15、16、17]。为了支持构建演示驱动智体的研究,RLBench [18] 的创建包含各种单臂固定操作任务,其中专家演示由运动规划器生成。使用运动规划器允许 RLBench 纯粹在模拟中生成大量演示数据,但是,输出轨迹通常要么由于基于采样的规划器固有的随机性而不自然,要么与嘈杂的真实世界人类演示相比具有不切实际的狭窄轨迹分布。此外,社区的进展在大量 RLBench 任务上开始停滞不前,尤其是最近的 3D 次优姿势智体 [10、11、16、17、19、20、21]。

这些限制凸显了对新基准的需求,该基准提供:(1) 更自然的演示,如现实世界机器人数据中看到的演示;(2) 一组新的具有挑战性的任务,其中最先进的算法可能表现不佳。

为此,提出 BiGym,这是一个人形具身的演示驱动移动双手操作基准。BiGym 涵盖 40 个视觉移动操作任务,从简单的任务(如在排水器之间移动盘子)到与洗碗机等铰接式物体交互,如图所示。


与之前的人形机器人基准测试 [22, 23] 不同,这些基准测试仅关注具有密集形状奖励函数的强化学习,这可能会导致不良行为 [24],为每个任务仅提供稀疏奖励,但有 50 个演示,可以评估 IL 和 RL 算法。 此外,与之前依赖于规划器生成的专家演示基准测试 [18] 相比,BiGym 中人类收集的演示更加逼真和多模态, 如图所示,更好地反映了真实机器人运动的轨迹。 图中显示 BiGym 和 RLBench 手臂手腕位置分布的可视化。 将 BiGym 人类收集的轨迹的手腕位置可视化,包括多模态伸手目标和打开壁柜任务,以及 RLBench 伸手目标和将刀放在砧板上的任务。 BiGym 的轨迹嘈杂、多模态,但总体上很平滑,而 RLBench 的运动规划器生成的轨迹要么是直线,要么不自然。


最后,BiGym 分别考虑运动和移动双手操作挑战; 具体来说,BiGym 允许用户在全身模式(同时考虑运动和操作)和双手模式(专注于上半身移动操作,同时用固定控制器控制下半身)之间切换,如图所示。 这种动作模式的分离使研究人员能够更好地研究和评估不同重点的各种算法的能力,即运动控制和移动双手操作。 BiGym 的代码可在项目网站上找到。

与之前使用运动规划器生成专家演示的基准测试 [18, 31, 40] 不同,BiGym 提供的是人工收集的演示,这些演示噪声很大且是多模态的。 具体来说,将 BiGym 任务设计为可以通过多种方式解决,以产生多模态演示分布。 例如,在到达目标多模态任务中,可以用左手或右手到达目标,如上图 (b) 所示。 这种设计能够使用更真实的演示来评估机器人学习算法的能力,而不是由非自然轨迹组成的合成演示。

基于 MuJoCo [42] 构建 BiGym 模拟环境。根据 Unitree H1 机器人的公开模型实施该平台。由于原始 H1 没有配备夹持器,在每个手臂上附加一个带有驱动腕关节的 Robotiq 2F-85 夹持器。平行夹持器很容易与其他灵巧的操纵器互换。

如上图 (a) 所示,在机器人上安装了三个摄像头:前额、左手腕和右手腕。每个摄像头都可以生成 RGB 和深度观测,这支持使用任一类型观测的多种类型算法。因此,观察空间定义为 O = {Ihead, Ileft, Iright, Dhead, Dleft, Dright, s/proprio},其中 I 是 RGB 图像,D 是深度图像,s/proprio 是机器人的本体感受状态。如果需要,还可以轻松获得其他观察结果,例如夹持器姿势和机器人姿势。


机器人社区仍不清楚哪种动作模式最适合移动双手操作任务中的复杂体现。因此,在 BiGym 中,为用户提供灵活的配置,自定义他们想要使用的动作模式,并将选择权留给用户。具体来说,提供了两种现成的动作模式:全身动作模式和双手动作模式,具有增量动作或绝对动作。对于全身动作模式,允许完全控制人形关节。这允许研究运动中的全身操纵。在双手动作模式下,将人形机器人的下半身视为由经典控制器管理的全向浮动底座,从而简化了控制。在这种情况下,可以专注于上半身的双手移动操控技能。

BiGym 中的场景,是基于 dm control 的自定义面向目标 API 从 MuJoCo MJCF 模型创建的 [5]。BiGym 中提供的所有 MJCF 模型都是从公开可用的 3D 模型创建的。许多其他 3D 模型都经过处理以用于 BiGym:减少网格以减少多边形总数,分离铰接物体的移动部件,添加所需的关节和执行器,并创建凸碰撞网格。目前,BiGym 提供 46 种高质量资产,可以重复使用以促进新环境的创建。除了刚体模型外,BiGym 还提供一组铰接模型,例如洗碗机和可定制的厨房模块。

基准测试的界面遵循用于训练 IL 和 RL 智体的标准 Gymnasium API [43]。如图展示了 RL 智体训练的典型工作流程。







请到「今天看啥」查看全文