专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

SAPIEN:基于模拟部件的交互式环境

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-11-19 00:06

正文

20年CVPR来自UCSD、斯坦福、Simon Fraser U、谷歌和UCLA的论文“SAPIEN: A SimulAted Part-based Interactive Environment”。

打造家庭助理机器人一直是视觉和机器人研究人员的目标。为了完成这项任务,一个具有物理真实模拟、足够的铰接物体和可迁移到真实机器人的模拟环境是必不可少的。现有环境以不同程度的简化和重点实现机器人模拟的这些要求。构建一个支持家庭任务的环境,训练机器人学习算法。SAPIEN,是一个现实的、物理丰富的模拟环境,承载着大量铰接物体。SAPIEN 支持各种需要详细部件级理解的机器人视觉和交互任务。评估最先进的部件检测和运动属性识别视觉算法,并使用启发式方法和强化学习算法演示机器人交互任务。SAPIEN 探索的研究方向,包括通过交互学习认知、部件运动发现和构建可用于机器人的模拟游戏环境。


构建可迁移至现实世界机器人学习的模拟环境并非易事。它面临四个主要方面的挑战:

  • 1)环境需要在一定程度上重现现实世界的物理。由于准确模拟现实世界的物理仍是不可行的,任何物理模拟器都需要确定其操作的细节级别和准确度。一些模拟器通过模拟刚体和关节来近似物理[36, 50, 10];一些模拟器处理柔软的可变形物体[50, 10];还有一些模拟器模拟流体[50, 45]。

  • 2)环境应包含对真实机器人的模拟,包括真实机器人操纵器、传感器和控制器的行为[35]。只有这样才能训练后无缝迁移到现实世界。

  • 3)环境需要产生物理上准确的渲染以缓解视觉域差距。

  • 4)最重要的是,环境需要足够的内容、场景和物体供机器人交互,因为数据多样性对于训练和评估基于学习的算法至关重要。内容还决定了要在多大程度上应对任务中的挑战:带有布料等软物体的数据,需要可变形体模拟;半透明物体需要特殊的渲染技术,而特定的机器人需要特定的界面。

如图所示 SAPIEN 中的机器人与物体交互。包括光线追踪场景(顶部)和机器人摄像机视图(底部):RGB 图像、表面法线、运动部分的深度和语义分割,同时机器人正在学习操作洗碗机。


SAPIEN 旨在将最先进的物理模拟器、现代图形渲染引擎和用户友好的机器人界面集成到一个统一的框架中,支持多种机器人感知和交互任务。 用 C++ 开发环境以提高效率,并提供 Python 包装器 API 以方便用户使用。 包括三个主要组件: SAPIEN 引擎、SAPIEN 资产和 SAPIEN 渲染器。 如图所示,左框显示 SAPIEN 渲染器,它采用自定义着色器(shader)和场景信息来生成 RGB-D 和分割等图像。 中框显示 SAPIEN 引擎,它集成 PhysX 模拟器和 ROS 控制接口,可实现各种机器人动作和实用程序。 右框显示 SAPIEN 资产,其中包含大规模 PartNet-Mobility 数据集,为可模拟模型提供部件级移动性。


使用开源 Nvidia PhysX 【36】物理引擎来提供详细的机器人与目标交互模拟。 该系统提供易于使用的机器人操作系统 (ROS) 支持,可用于端到端机器人研究。 提供同步和异步模拟模式,支持强化学习训练和机器人任务。

SAPIEN Asset 是模拟内容,它包含可立即模拟的大规模 PartNet-Mobility 数据集、模拟的机器人模型和场景布局。

PartNet-Mobility 是一个大规模 3D 交互式模型数据集,其中包含来自 46 个常见室内目标类别 2,346 个目标模型的超过 14K 个铰接部件。所有模型均从 3D Warehouse 收集并按照 ShapeNet [7] 和 PartNet [33] 进行组织。标注 3 种类型的运动:铰链、滑块和螺钉,其中铰链表示绕轴旋转(例如门);滑块表示沿轴平移(例如抽屉),螺钉表示铰链和滑块的组合(例如瓶盖、转椅)。对于铰链和滑块关节,标注运动极限(即角度、长度)。对于螺钉,标注运动极限以及这 2 个自由度是否耦合。每个关节都有一个父关节和一个子关节,连接身体和关节的集合称为一个铰接。要求关节的关节遵循单根的树结构,因为大多数物理模拟器都能很好地处理树关节系统。接下来,对于每个可移动部分,分配一个特定类别的语义标签。下表总结了数据集统计数据。







请到「今天看啥」查看全文