专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
医学美图  ·  医学视频丨烦人的口腔溃疡 ·  3 天前  
丁香园  ·  英国首相公开接受 HIV 检测 ·  3 天前  
医学界  ·  二羟丙茶碱平喘,4类人群慎用! ·  5 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

HomeRobot:开放词汇移动操作

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-14 00:01

正文

24年1月来自Georgia Tech、Meta AI、CMU 和 Simon Fraser 大学的论文“HomeRobot: Open-Vocabulary Mobile Manipulation”。

HomeRobot:一种价格实惠的柔性机器人,可以在家中导航并操纵各种目标以完成日常任务。开放词汇移动操纵 (OVMM) 是在任何未见过的环境中拾取任何目标并将其放置在命令位置的问题。这是机器人成为人类环境中有用助手的基础挑战,因为它涉及解决机器人领域的子问题:感知、语言理解、导航和操纵,对 OVMM 都至关重要。此外,将这些子问题的解决方案集成起来也带来了巨大的挑战。为了推动这一领域的研究,引入 HomeRobot OVMM 基准,其中智体在家庭环境中导航以抓取新目标并将它们放置在目标(target)托架上。HomeRobot 有两个组件:一个模拟组件,它在新的高质量多房间家庭环境中使用大量多样化的精选目标集;以及一个现实世界组件,为低成本的 Hello Robot Stretch 提供软件堆栈,以鼓励在实验室中复制现实世界的实验。实施强化学习和启发式(基于模型)基线,并展示导航和位置技能从模拟-到-现实迁移的证据。该基线在现实世界中实现 20% 的成功率;该实验确定了未来工作可以提高性能的方法。

如图所示:开放词汇移动操作要求智体在特定位置搜索以前未见过的目标,并将其移动到正确的托架中。



正式来说,任务设置为以下形式的指令:“将(目标)从(起始托架)移动到(目标托架)。”目标是一个小型且可操作的家用物品(例如,杯子、毛绒玩具或盒子)。相比之下,起始托架和目标托架是大型家具,其表面可以放置目标。机器人被放置在一个未知的单层家庭环境中 - 例如公寓 - 并且必须根据起始托架、物体和目标托架的语言名称拾取已知在起始托架上的目标并将其移动到任何有效的目标托架。起始托架始终可用,以帮助智体知道在哪里寻找目标。

如果指定的目标确实从它开始episode的起始托架(start_receptacle)移动到任何有效的目标托架(goal_receptacle),则智体成功。为机器人完成的每个步骤给予部分学分:找到带有目标的start_receptacle、拾起目标、找到goal_receptacle以及将目标放在goal_receptacle上。每个查询可以有多个有效目标满足。

至关重要的是,需要并开发 (1) 开放词汇移动操作问题的模拟版本,以实现可重复性、训练和快速迭代,以及 (2) 具有相应真实世界基准的真实机器人堆栈。如图比较两者。模拟环境允许进行多种多样的长期任务实验;真实世界 HomeRobot 堆栈允许使用真实数据进行实验,设计一组真实世界的测试来评估学习和启发式基线的性能。


机器人 。用带有 DexWrist 的 Hello Robot Stretch [22] 作为移动操控平台,因为它 (1) 价格相对实惠,为 25,000 美元,(2) 提供 6 个自由度操控,(3) 对人类安全且尺寸适合人类,因此可以在实验室 [24, 11] 和家庭 [2] 中安全地进行测试,并且可以到达人类期望机器人去的大多数地方。

目标 。这些分为见过与未见过的类别和实例。具体而言,在测试时,会查看见过或未见过类别的未见过实例;即,在评估期间不会出现来自训练中见过的可操控目标。智体必须拾取和放置任何请求的目标。

托架 。数据集中包含常见的家用托架(例如桌子、椅子、沙发);与可操控目标不同,所有可能的托架类别都会在训练期间见过。

场景 。既有模拟场景数据集,也有一组固定的现实世界场景,其中包含特定的家具布置和目标。在模拟场景和真实场景中,都使用来自之前见过的类别目标和来自未见过的类别目标作为开放词汇移动操作任务的目标物体。保留验证和测试场景,这些场景未出现在训练数据中;虽然某些托架可能会重新出现,但它们将位于之前未见过的位置,并且目标物体实例将不可见。

得分 。计算每个阶段的成功率:在起始托架上找到目标、成功拾取目标、找到目标托架以及将目标放在目标托架上。如果所有四个阶段都完成,则总体成功。将部分成功计算为决胜局(tie-breaker),其中智体每完成一个连续阶段就会获得 1 分,并按阶段数进行归一化。

Habitat 合成场景数据集 (HSSD) [19] 包含 200 多个人工编写的 3D 家庭场景,其中包含超过 18,000 个现实世界物体的 3D 模型。如图所示:


与大多数真实房屋一样,这些场景中摆放着家具和其他目标,这些目标被摆放在真实的建筑布局中,使得导航和操作与现实世界一样困难。使用 HSSD [19] 的一个子集,该子集由 60 个场景组成,这些场景还编写额外的元数据和模拟结构以支持重排列。在实验中,这些场景被分为训练、验证和测试部分,每个部分有 38、12 和 10 个场景,遵循原始 HSSD 论文 [19] 中的划分。

首先自动标记托架顶部的稳定区域,然后手动细化和处理这些区域,删除无效或无法访问的托架,从而构建家具托架目标最终的集合。此外,碰撞智体网格是自动生成的,在许多情况下是手动更正的,以支持物理上准确的目标布置程序放置。

真实世界实验是在一个受控的 3 室公寓环境中进行的,该环境配有沙发、厨房桌子、带吧台的柜台和电视架等。记录各种目标的定位和机器人的起始位置,以确保试验的可重复性。上图包含测试公寓各种布局的图像,下图显示任务执行情况:


在真实世界测试期间,选择模拟训练中未出现的目标实例,分为见过和未见过的类别。使用八个不同的类别:五个见过的(杯子、碗、毛绒玩具、药瓶和玩具动物)和三个未见过的(魔方、玩具钻和柠檬)。针对两个不同的基线和七个不同的托架类别进行 20 次实验:橱柜、椅子、沙发、柜台、水槽、凳子、桌子。


为了促进对这些具有挑战性问题的研究,开源 HomeRobot 库,该库实现了支持 Hello Robot Stretch [22] 的导航和操作功能。在设置中,假设用户可以访问移动机械手和 NVIDIA GPU 驱动的工作站。移动机械手运行低级控制器和定位模块,而桌面运行高级感知和规划堆栈(如图所示)。机器人和桌面使用现成的路由器连接。可以在支持 GPU 的工作站上运行可视化,同时在机器人上仅运行必要的代码以进行低级控制和 SLAM。


堆栈的主要功能包括:

  • 可迁移性:对每个任务,模拟和真实世界设置之间统一的状态和动作空间,提供一种使用高级动作空间(例如,预制的抓取策略)或低级连续关节控制来控制机器人的简便方法。







请到「今天看啥」查看全文