专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
中国教育报  ·  今天21时53分,一起看月亮! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DexMV:通过模仿学习从人类视频中实现灵巧操作

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-07 00:05

正文

22年7月来自UCSD的论文“DexMV: Imitation Learning for Dexterous Manipulation from Human Videos”。

尽管在理解计算机视觉中的手部与目标的交互方面已经取得了重大进展,但机器人执行复杂的灵巧操作仍然非常具有挑战性。本文提出一个用于模仿学习的新平台和流程 DexMV(从视频中进行灵巧操作)。设计的平台具有:(i)一个用于使用多指机械手执行复杂灵巧操作任务的模拟系统;(ii)一个计算机视觉系统,用于记录人手执行相同任务的大规模演示。在流程中,从视频中提取 3D 手部和目标的姿势,并提出一种演示转换方法将人体运动转换为机器人演示。然后,用这些演示应用和基准测试多种模仿学习算法。这些演示确实可以大幅提高机器人学习能力,并解决仅靠强化学习无法解决的复杂任务。


如图所示:DexMV 平台包含一对系统:(i) 计算机视觉系统,记录人类执行操作任务的视频(图中第一行);(ii) 物理模拟系统,为多指机器人的灵巧操作提供交互式环境(图中第三行)。这两个系统的任务相同。借助这个平台,目标是通过模仿学习流水线将 3D 视觉和机器人灵巧操作连接起来。


DexMV 流程包含三个阶段。首先,从录制的视频中提取 3D 手部-目标姿势(图中的第二行)。与以前使用 2 自由度夹持器的模仿学习研究 [92,81] 不同,需要人体视频来引导 30 自由度机械手在 3D 空间中移动每个手指。解析 3D 结构提供了关键且必要的信息。其次,流程中的一个关键贡献是一种演示转换方法,它将计算机视觉系统和模拟系统连接起来。

本文提出了一种基于优化的方法,将 3D 人手轨迹转换为机械手演示。具体而言,创新在于两个步骤:(i)手部运动重定向方法以获得机械手状态;(ii)机器人动作估计以获得要学习的动作。第三,给定机器人演示,在模拟任务中进行模仿学习。

DexMV平台和流水线如图所示:计算机视觉系统(黄色)、模拟系统(蓝色)和演示转换模块(绿色)组成。在计算机视觉系统中,收集人类操作视频。在模拟中,为机械手设计相同的任务。从视频中应用 3D 手-目标姿势估计,然后进行演示转换以生成机器人演示,然后将其用于模仿学习。


常见的模仿学习算法使用来自专家演示的状态-动作对。它需要机器人的状态和电机的动作作为训练数据,而不是直接使用人类的手部姿势。如图蓝色框中的运动链所示,虽然机器人和人类的手都具有相似的五指形态,但它们的运动链是不同的。


将以人为中心的姿势估计结果中的演示转换为以机器人为中心的模仿数据。具体来说,演示转换有两个步骤(如图的红框所示):(i)手部运动重定向,将人手运动与机器人手部运动对齐,它们具有不同的自由度和几何形状;(ii)预测机器人动作,即机器人电机的扭矩:没有任何有线传感器,只需从姿势估计结果中恢复动作。







请到「今天看啥」查看全文