24年9月来自英国 ICL的论文“Haptic-ACT: Bridging Human Intuition with Compliant Robotic Manipulation via Immersive VR”。
机器人操控对于机器人在工业和家庭环境中的广泛应用至关重要,长期以来一直是机器人界关注的焦点。人工智能的进步引入了有前途的基于学习方法来应对这一挑战,其中模仿学习尤为有效。然而,有效地获取高质量的演示仍然是一个挑战。这项工作引入了一种基于沉浸式 VR 的遥操作设置,旨在收集来自远程人类用户的演示。还提出了一个模仿学习框架,称为 Transformers 的触觉动作分块 (Haptic-ACT)。为了评估该平台,进行一项拾取和放置任务并收集 50 个演示片段。结果表明,与没有触觉反馈的系统相比,沉浸式 VR 平台显著降低演示者的指尖力量,从而实现了更精细的操控。此外,在 MuJoCo 模拟器和真实机器人上,对 Haptic-ACT 框架的评估表明,与原始 ACT 相比,它在教机器人进行更柔顺的操控方面是有效的。
如图所示沉浸式 VR 装置的概要图,包括 VR 头戴式设备、触觉反馈手套、跟随机械臂和机械手。(a) 说明了机械臂和手系统如何跟随人类演示并提供感官反馈,(b) 描述了演示者远程控制机器人,(c) 显示头戴式设备的 VR 视图。
本文将 Extend Robotics 开发的基于 VR 远程操作平台 AMAS 与 SenseGlove 集成,以解决现有技术的局限性。
与 [19] 中的方法类似,加入触觉反馈有望增强人类的演示体验。
此外,还提出了一种多模态架构,将基于视觉的 ACT 与触觉信息结合起来,以提高灵活性。
如图所示,人类演示者使用 Meta Quest 3 VR 头戴式耳机和 SenseGlove 远程控制真实机器人系统。头戴式耳机跟踪演示者手的位置 [x、y、z] 和方向 [i、j、k、w],而 SenseGlove 则捕捉手关节 q/hand 的运动。然后在 Unity 中处理这些数据,在 Unity 中设计一个数字孪生来计算真实机器人的 IK。计算出的关节角度 q/arm 通过 ROS 发送到机械臂。此外,人手关节 q/hand 映射到机械手关节 q′/hand,并通过 ROS 传输到机械手。
为了在 VR 耳机中呈现机器人的视图,用两个 ZED RGB-D 摄像头:一个固定,一个安装在机器人手腕上,以捕捉机器人视图的点云并在 VR 耳机中重建它们。基于 VR 平台的优势在于它将人类的能力扩展到物理存在之外,并为演示者提供身临其境的体验。
尽管 VR 头戴设备允许演示者以视觉沉浸的方式远程操作机器人,但它仍然缺乏可以增强整体体验的额外感官反馈。为了解决这个问题,将 SenseGlove 集成到 VR 设置中,使人类演示者能够在演示过程中接收触觉反馈。如上图所示,可以从真实机器人手的运动值推断出其指尖力。为了将这些运动值映射到相应的指尖力,用测力计触摸每个指尖并记录每个手指的力-电机值对。然后,应用数据回归方法得出一个将电机值转换为相应力的公式。
与 [19] 类似,指尖力被转换成 SenseGlove 的脉冲宽度调制 (PWM) 信号。该信号的占空比(duty cycle)通过经验拟合二次曲线来确定,该曲线对应于每个电阻肌腱(tendon)测得的力输出。
模仿学习方法已被广泛用于使机器人从演示中学习操作任务。最近,引入了 Transformers 动作分块 (ACT) [33],通过将长视程任务分割成更小、更易于管理的块,可以有效地处理长视程任务,从而提高机器人操作中的任务性能和学习效率。然而,ACT 缺乏触觉信息的整合,而这对于接触丰富的操作至关重要。为了解决这个问题,Haptic-ACT 框架结合触觉反馈来增强学习和性能。如图所示,Haptic-ACT 从两个摄像头获取两个 480 × 640 × 3 RGB 图像、13 × 1 个关节位置(7 个用于手臂,6 个用于手)和 5 × 1 个指尖力作为观测值。在将观测值输入网络之前,所有数据都使用 min-max 规范化。
归一化的观测值使用卷积神经网络 (CNN) 或线性层嵌入,然后输入到 Transformer 编码器中。在训练期间,条件变分自动编码器 (CVAE) 编码器为 CVAE 解码器生成样式变量。在推理期间,样式变量设置为零,实现确定性解码。动作序列表示为 k × 13,其中 k 表示手动定义的块大小。通过最小化预测动作和真实动作之间的均方误差 (MSE) 以及编码器输出和标准正态分布之间的 Kullback-Leibler (KL) 散度来优化 Transformer。