24年12月来自 CMU 和 Apple 的论文“ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning”。
人形机器人在感知和知觉方面存在巨大差距,因此很难在密集环境中进行运动规划。为了解决这个问题,引入 ARMOR,这是一种以自我为中心的感知系统,它集成硬件和软件,特别是为人形机器人整合可穿戴式深度传感器。分布式感知方法增强机器人的空间感知能力,并促进更敏捷的运动规划。还在模拟中训练基于 Transformer 的模仿学习 (IL) 策略来执行动态碰撞避免,方法是利用 AMASS 数据集中大约 86 小时的人类真实运动。
与多个密集头戴式和外部安装深度摄像头的设置相比,ARMOR 感知更胜一筹,碰撞减少 63.7%,成功率提高 78.7%。该 IL 策略与基于采样的运动规划专家 cuRobo 进行比较,碰撞减少 31.6%,成功率提高 16.9%,计算延迟减少 26 倍。将 ARMOR 感知部署到 Fourier Intelligence 的真实世界 GR1 人形机器人上。
如图所示:ARMOR 为人形机器人提供一种以自我为中心的可穿戴感知硬件和软件系统(左)。低调和分布式深度传感器可实现机器人周围的全面点云感知,并最大限度地减少遮挡(右)。借助数据驱动的运动规划策略 ARMOR-Policy,能够将注意引导到特定区域,并展示有效而快速的运动规划。
Transformer 架构和大语言模型 [4]、[23]、[24] 的最新进展重新激发人们对人形机器人的兴趣和应用 [7]、[32]。人形机器人操控面临许多挑战,包括对防撞和安全的担忧、使策略学习具有挑战性的众多自由度,以及与人类皮肤和触觉反馈相比在传感和感知方面的差距。目前人形机器人的感知和传感解决方案,不足以覆盖手臂或手,也没有充分利用机器人的表面区域。
由于人形机器人的移动特性,依赖多个外部摄像头和第三人称感知(如固定双手操作器)是不可行的 [34]、[9]、[2]。目前人形机器人的感知范式,通常涉及安装在头部或躯干具有高分辨率感知的集中式摄像头和/或激光雷达 [32]。这种感知策略易于集成,在视野宽阔或颈部有多个自由度的情况下可以有不错的覆盖范围;然而,在许多情况下,手臂和手部仍存在遮挡。触觉感应也集成到一些末端执行器 [22]、[10]、[12]、[14] 中,然而,这大大增加成本,并且很难大量集成到人形机器人手臂上,而且在策略学习中仍然不是一个很好理解的输入源。
无碰撞运动规划
生成无碰撞轨迹对于通用机器人系统的安全部署至关重要。人形机器人等系统由于其在控制空间中具有很高的自由度而特别具有挑战性。
已经提出各种基于样本和优化的算法来解决无碰撞规划问题。这些方法通常涉及一个专用的规划器,该规划器在给定碰撞成本函数的情况下生成轨迹,要么将成本最小化作为优化目标的一部分,要么修剪和偏置采样。碰撞成本的流行选择包括势场(potential field)方法 [6]、有符号距离场 (SDF) [3]、[29]、[13] 和控制屏障函数 (CBF) [25]、[30]、[31]。
其他研究也探索通过强化学习 (RL) 的基于学习方法。 ATACOM 方法 [17]、[18] 通过约束流形(constraint manifold)理论将防撞问题构建为流形优化问题,并将其作为 RL 学习的一部分来约束动作的安全性。另一方面,SAFER [27] 将 RL 与基于样本的算法相结合,并使用 RL 修剪样本空间作为运行时优化,以平衡任务成功率和安全性。
最近,训练防撞策略已经通过从大量经验中学习(即模仿学习)得到证明。MπNets [5] 和 MPNet [3] 使用合成生成的程序任务场景在数百万个实例上训练机器人机械臂的神经运动规划策略。
自我中心感知
上述碰撞感知运动规划方法,通常需要在固定的世界框架中准确感知机器人和周围目标作为输入,这需要使用 RGB-D 摄像头等传感器或安装在机器人外部的深度传感器。对于具有运动能力的人形机器人,需要外部传感器可能会显著限制机器人的应用场景,因此通常需要自我中心传感器。虽然某些方法可以采用以自我为中心的传感器输入 [3],但它们的防撞性能通常会受到传感器有限视场 (FoV) 和遮挡(例如头戴式摄像头)的严重影响。
最近由数据驱动的双手人形机器人控制策略使用以自我为中心的视觉作为策略生成的输入 [33],[15]。由于人形机器人控制的复杂性,大多数工作仅侧重于任务性能,假设没有与任务无关的障碍。
使用飞行时间 (ToF) 传感器确保机器人安全
之前的研究 [1]、[8] 利用类似的 ToF 激光雷达阵列作为接近传感器(单点)来实现安全的人机交互,同时采用简单的基于启发式的防撞策略。
ARMOR,是一种用于人形机器人操纵和防撞的自我中心感知。将小型、低成本、低功耗的飞行时间 (ToF) 激光雷达传感器 [26] 策略性地分布在人形机器人的手臂和手上,以获得良好的视野覆盖范围,并实现所需的点云密度。这些传感器外形小巧,易于集成到人形机器人平台上,与触觉相比,它们是一种可扩展的传感解决方案,还消除了现有头戴式或外部摄像头存在的许多遮挡。ARMOR 感知中的传感器还用于其他应用,如地图绘制 [16]、防撞 [1]、[8] 和 3D 重建 [19]、[21]。
自我中心感知硬件
与在单个密集帧中捕获完整细节的集中式 RGBD 相机不同,该方法将稀疏感知分布在多个传感器上。这最大限度地利用 ARMOR-Policy 的注意头来关注不同的传感器输入,从而更有效地规划无碰撞轨迹,同时具有抗遮挡能力。
选择 SparkFun VL53L5CX 飞行时间 (ToF) 激光雷达 [26],因为它具有粗糙但轻巧、商业上可用和可扩展的特性。该传感器尺寸紧凑,为 6.4 × 3.0 × 1.5 毫米。传感器以 15 Hz(某些配置下最高可达 30 Hz)运行,图像分辨率为 8 × 8,可捕获 63° 对角线视场和 4000 毫米范围内的深度。理想情况下,可以将这些传感器直接集成到人形机器人的硬件平台中,但是,为了完成这项工作,尝试创建一种可以使用现成组件应用于任何人形机器人的解决方案。
为了展示传感器星座,在 Fourier GR1 人形机器人的手臂上策略性地放置 40 个传感器(每只手臂 20 个)。一组四个传感器连接到 XIAO ESP 微控制器 [28],并通过 I2C 总线读取。然后,每个微控制器通过 USB 传输到机器人的机载计算机(Jetson Xavier NX)。最后,传感器数据通过套接字无线传输,并在配备 NVIDIA GeForce RTX 4090 GPU 的 Linux 机器上进行处理。这确保即使有多个传感器,流也可以以 15 Hz 运行。
如图所示ARMOR 的自我中心感知硬件在模拟中(左)并部署在真实机器人上(右)。
ARMOR 策略
ARMOR 策略基于类似于动作分块 Transformer (ACT) [34] 的 Transformer 编码器-解码器架构,使用序列建模来模仿专家(即无碰撞的人体运动演示)。将策略 π(·) 训练为生成模型,预测基于当前关节状态 q/t、目标关节 g 位置、来自多个 ToF 激光雷达的观测 o/t 和潜变量 z 的动作序列 a/t+k。
运动规划可以产生多种解决方案(例如,可以有多条路径来避开障碍物),策略应该能够对这些行为序列进行建模。为此,利用额外的编码器层来推断潜变量 z。编码器的输入是当前关节位置和目标动作序列。该编码器用于训练 Transformer 策略,通过调整 z 来生成不同的运动轨迹候选。该流程如图左侧所示(“行为编码器”)。这样能够执行推理-时间优化,其中对多个轨迹进行采样。
该策略将潜变量 z、当前和目标关节位置以及 ToF 激光雷达传感器值作为输入。当前关节和目标关节合在一起是一个 28 维向量(两个臂为 14 个自由度)。将每个 ToF 激光雷达传感器读数在其各自的自我框架中输入网络。该架构如上图右侧所示。深度观测包括 40 张灰度深度图像,每张分辨率为 8×8。深度图像通过修改后的单通道 ResNet18 主干 [11](第一层的权重取平均值),提取 512 个特征。最后,Transformer 策略输出 k 个动作序列,即 k×14 向量。整个架构产生大约 84M 个参数。
推理-时间优化
为了确保安全的运动规划,就像在其他先前的工作 [3]、[5] 一样,实施轻量级推理-时间优化。如前所述,无碰撞规划可以有多种解决方案,ARMOR-Policy 经过训练,能够通过调整潜变量 z 输出多种解决方案。通过调整潜变量 z,从随机后验分布中进行采样,批处理计算 N 条候选轨迹。此步骤在 GPU 上并行计算,在推理过程中增加的额外延迟可以忽略不计。给定多个输出轨迹,用符号距离函数 (SDF) 找到机器人到点云 (PCL) 距离最小的最佳路径。具体讲,优化过程定义为:
其中 T 是动作范围,K 是点云中的点数,q 是关节位置。
运动规划专家数据生成
核心流程采用模仿学习。数据包括当前手臂姿势、目标手臂姿势和模拟点云形式的环境障碍物。虽然其他先前的工作侧重于在特定任务环境(例如,架子、橱柜、桌子等)中生成运动数据 [3],但该流程试图学习一组围绕障碍物的一般操作动作,以避免在特定任务环境中过拟合。用 AMASS 数据集 [20] 创建 311,922 条合成运动轨迹(86.6 小时),因为这些数据包括与机器人任务相关的各种人体姿势(例如,操作、舞蹈、社交动作等)。将 AMASS 数据集中的这些人体动作轨迹,用作运动规划专家路径。就像人们会给出一个狭窄的环境,并要求演示者移动手臂而不发生碰撞一样,反过来在重定位的人类轨迹周围产生紧密的障碍物,同时确保不会与路径发生碰撞。
将人类手臂姿势从 AMASS 重定位到 Fourier GR1 人形机器人的关节配置。AMASS 数据集,提供旋转向量中每个轴周围的关节角度。用与手臂相关的关节角度(衣领、肩部、肘部、腕部和手指)。人形机器人手臂中肘部和腕部的每个电机,都可以直接使用轴角,因为每个电机都围绕单个轴旋转。但是对于肩部电机,用启发式方法来结合衣领和肩部的角度。
通过三种不同的策略生成演示数据,如图所示:防撞、紧急停止和无碰撞运动。在防撞运动期间,用数据序列中当前姿势的未来 1 秒,作为目标姿势,并回放整个 1 秒目标动作序列,其中轨迹周围会生成随机障碍物,但没有实际碰撞。在紧急停止期间,将最后的目标位置设置为障碍物内部的随机位置,这始终会导致手臂发生碰撞。最后,在自由无碰撞运动中,目标姿势是未来 1 秒,类似于防撞运动,但移除所有障碍物,并且专家运动轨迹在当前姿势和目标姿势之间进行线性插值。