专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
河南检察  ·  AI带你品宋词,梦回汴梁 ·  昨天  
河南检察  ·  AI带你品宋词,梦回汴梁 ·  昨天  
青塔  ·  更名大学,获官方支持 ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DexPilot:基于视觉的灵巧机器人手臂系统遥操作

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-07 00:05

正文

19年10月来自Nvidia和CMU的论文“DexPilot: Vision Based Teleoperation of Dexterous Robotic Hand-Arm System”。

远程操作为机器人系统提供了执行任务所需的复杂推理技能、直觉和创造力。然而,目前用于高驱动度 (DoA)、多指机器人的遥操作解决方案通常成本过高,而低成本产品通常提供较低的控制程度。在此,开发一种低成本的基于视觉遥操作系统 DexPilot,只需观察裸露的人手即可完全控制整个 23 DoA 机器人系统。DexPilot 使操作员能够执行各种复杂的操作任务,而不仅仅是简单的拾取和放置操作。这允许收集高维、多模态、状态动作数据,这些数据可用于未来学习具有挑战性的操作任务的感觉运动策略。系统性能通过两个人类演示者在各种任务上的速度和可靠性指标来衡量。


如图所示:DexPilot 支持多种任务的远程操作,例如,矫正品客薯片罐并将其放入红色碗中(左上)、插入杯子(右上)、同时用四根手指拿起两个方块(左下)以及从钱包中取出钱(右下)。


如图所示:远程操作装置由一个机器人系统和一个相邻的人类操作员场所组成。机器人系统是 KUKA LBR iiwa7 R800 系列机械臂和 Wonik Robotics Allegro hand。Allegro hand的指尖装有四个 Syntouch Biotac 触觉传感器,指骨和手掌内表面贴有 3M TB641 胶带。Biotac 传感器和 3M 胶带的橡胶表面增强了手的摩擦特性,而 Biotac 本身产生了 23 个信号,这些信号以后可用于从演示中学习感觉运动控制。总的来说,机器人系统有 92 个触觉信号、23 个关节位置信号和 23 个关节扭矩动作。人类操作场所是一张铺着黑布的桌子,上面装有四台经过标定和时间同步的英特尔 Realsense D415 RGB-D 摄像头,这些摄像头的空间排列方式可以在理想的摄像头感应范围内很好地覆盖观察体。理想情况下,每个摄像头的深度观测应保持在 1 米以内;否则,深度质量会下降。由于遥操作完全基于人类视觉和空间推理,因此人类活动区域与机器人直接相邻,以提高视线和视觉接近度。遥操作工作体为 80 厘米×55 厘米×38 厘米。


系统架构如图所示:该系统由三个线程组成,运行在三台不同的计算机上。学习线程,使用来自工作室四台摄像机的融合输入点云提供手势和关节角度先验。跟踪线程,运行 DART (“Dart: Dense articulated real-time tracking”)进行手势跟踪,并进行将人手配置映射到 Allegro hand所需的运动重定向。控制线程,运行黎曼运动策略,根据手势和关节角度向 KUKA 和 Allegro hand 提供目标关节命令。


DART [27] 通过将手的关节模型与输入点云进行匹配,实现人手的连续姿势和关节角度跟踪。人手模型来自 [28](“Embodied hands: Modeling and capturing hands and bodies together”),并被转化为单个网格模型 [29](“Learning joint reconstruction of hands and manipulated objects”)。使用 CAD 软件,网格模型的手指被分成各自的近端、内侧和远端链接,并重新导出为单独的网格以及描述其运动学排列的相关 XML 文件。总的来说,人手模型拥有旋转关节:每个手指有四个关节,一个外展关节和三个屈曲关节。

因此,最初使用带有彩色斑点的织物手套(如图所示)作为使用深度神经网络获取手部姿势先验的有效解决方案。数据收集分为两个阶段进行。在第一阶段,用户戴上手套以获取手部姿势先验,以便 DART 稳健地跟踪人手。此过程为来自 RGB-D 相机的原始深度图生成手部姿势和关节角度注释,以供第二阶段使用。第二阶段使用这些注释并对来自相应深度图的原始点云进行操作,并使用户无需戴手套。


机械手在运动学上与人手完全不同,要对其进行遥控操作,需要一个模块,将观察的人手关节映射到 Allegro 关节上。运动重定向方法有不少工作报道。例如,在 [19] 中,使用 BioIK 解算器匹配(人手和 Shadow hand 之间)从手掌到指尖和内侧关节的位置,以及近端指骨和拇指远端指骨的方向性。优化后的映射用于标记人体深度图像,以端到端学习深度网络,该网络可以摄取深度图像并输出 Shadow hand 的关节角度。虽然很有趣,但结果产生的重定向结果对于精确抓握(例如捏)毫无用处,因为指尖之间的间隙需要很小或为零。







请到「今天看啥」查看全文