22年9月来自华盛顿大学、Nvidia和MIT的论文“DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal Human Demonstrations”。
由于多指灵巧机器人的状态和动作空间维度较高,因此在现实世界中教它抓取目标一直是一个具有挑战性的问题。本文提出一种机器人学习系统 DexTransfer,该系统可以通过少量的人类演示,在部分遮挡的观察下学习抓取未见过的目标姿势。该系统利用一个小型运动捕捉数据集,并生成一个大型数据集,其中包含多指机器人夹持器的多样化和成功轨迹。通过添加域随机化,数据集提供了可以迁移给策略学习者的稳健抓取轨迹。训练一种灵巧的抓取策略,该策略以目标点云为输入,并预测从不同初始机器人状态抓取目标的连续动作。在模拟中的 22 自由度 Allegro hand和现实世界中带有 KUKA 手臂的 23 自由度 Allegro 机器人手上评估了系统的有效性。从数据集中学习的策略可以很好地泛化到模拟和现实世界中未见过的目标姿势。
如图所示系统 DexTransfer 的问题设置说明。顶部:通过动作捕捉提供一些人体演示。中间:通过基于人体演示的细化和增强数据进行训练,在模拟中对未见过的姿势部署策略。底部:真实的 Allegro hand 在现实世界中对未见过的姿势执行迁移策略。
如图所示一个演示引导的数据增强系统,旨在为模拟中的机器人夹持器生成大量多样化、成功轨迹的数据集。数据增强流水线将运动重定向与局部无梯度轨迹细化和增强相结合,以相对便宜的方式获得大量成功数据。这些数据可用于学习从点云到动作的映射策略,这些策略可以迁移到现实世界场景中,以新姿势抓取目标。
为了解决这个问题,遵循 DexPilot [13],将重定向目标制定为具有通用成本函数的非线性优化问题,该函数能够将人体数据重定位到不同形态的各种机械手上,同时保留原始的演示行为。
重定位的轨迹只是试图匹配运动姿势,而没有真正考虑世界的动态,没有考虑未见过的接触力。对于接触丰富的操作任务(如灵巧抓取),这可能会导致轨迹执行的灾难性失败。
轨迹细化过程包括:(1) 通过模板匹配从重定位的轨迹中生成大量标称轨迹以进行细化 (2) 扰动和细化这些标称轨迹,使其在任务完成时动态成功 (3) 增强细化轨迹,使其在姿势、配置和初始手部状态下具有多样性。其算法总结如下:
如图所示:人类演示中细化姿势的定性结果。这表明,尽管运动学配置存在很大差异,DexTransfer 仍能够将人类演示转移到各种机器人夹持器上。
如图所示:轨迹细化过程的图示,结合细化、增强和数据漏斗,以获得用于监督学习的扩展轨迹数据集。左图:仅提供少量人类演示,并重定位到机器人夹持器以生成标称轨迹。中间图:通过细化和增强,根据未见过的目标姿势和初始手部姿势的策略生成抓取轨迹。右图:通过数据漏斗扩展可行目标姿势和新手部状态的集合。
网络架构如图所示:编码器由三个 PointNet++ SA 模块和两个全连接层组成。运动学编码器由三个残差模块组成。融合层采用连接的特征并输入到一个线性层,然后是两个残差模块。该网络有三个分支来预测手掌平移、旋转和关节角度。每个分支由三个残差模块组成。