22年7月来自UCSD的论文“DexMV: Imitation Learning for Dexterous Manipulation from Human Videos”。
尽管在理解计算机视觉中的手部与目标的交互方面已经取得了重大进展,但机器人执行复杂的灵巧操作仍然非常具有挑战性。本文提出一个用于模仿学习的新平台和流程 DexMV(从视频中进行灵巧操作)。设计的平台具有:(i)一个用于使用多指机械手执行复杂灵巧操作任务的模拟系统;(ii)一个计算机视觉系统,用于记录人手执行相同任务的大规模演示。在流程中,从视频中提取 3D 手部和目标的姿势,并提出一种演示转换方法将人体运动转换为机器人演示。然后,用这些演示应用和基准测试多种模仿学习算法。这些演示确实可以大幅提高机器人学习能力,并解决仅靠强化学习无法解决的复杂任务。
如图所示:DexMV 平台包含一对系统:(i) 计算机视觉系统,记录人类执行操作任务的视频(图中第一行);(ii) 物理模拟系统,为多指机器人的灵巧操作提供交互式环境(图中第三行)。这两个系统的任务相同。借助这个平台,目标是通过模仿学习流水线将 3D 视觉和机器人灵巧操作连接起来。
DexMV 流程包含三个阶段。首先,从录制的视频中提取 3D 手部-目标姿势(图中的第二行)。与以前使用 2 自由度夹持器的模仿学习研究 [92,81] 不同,需要人体视频来引导 30 自由度机械手在 3D 空间中移动每个手指。解析 3D 结构提供了关键且必要的信息。其次,流程中的一个关键贡献是一种演示转换方法,它将计算机视觉系统和模拟系统连接起来。
本文提出了一种基于优化的方法,将 3D 人手轨迹转换为机械手演示。具体而言,创新在于两个步骤:(i)手部运动重定向方法以获得机械手状态;(ii)机器人动作估计以获得要学习的动作。第三,给定机器人演示,在模拟任务中进行模仿学习。
DexMV平台和流水线如图所示:计算机视觉系统(黄色)、模拟系统(蓝色)和演示转换模块(绿色)组成。在计算机视觉系统中,收集人类操作视频。在模拟中,为机械手设计相同的任务。从视频中应用 3D 手-目标姿势估计,然后进行演示转换以生成机器人演示,然后将其用于模仿学习。