专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
算法爱好者  ·  字节“代码抄袭案”败诉,判赔 8267 万! ·  2 小时前  
阿里开发者  ·  「缓存」会用很容易,用好才是技术活 ·  昨天  
百度智能云  ·  首日1.5万后,百度智能云千帆助力DeepS ... ·  2 天前  
百度智能云  ·  如何在百度百舸部署满血版DeepSeek-V ... ·  5 天前  
九章算法  ·  Meta大裁员10%!疑为TikTok人才“ ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

DexH2R:面向任务从人到机器人的灵巧操控

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-11-21 00:15

正文

24年11月来自UC Berkeley的论文“DexH2R: Task-oriented Dexterous Manipulation from Human to Robots”。

灵巧操作是人类能力的一个重要方面,可以与各种各样的目标进行交互。从人类演示中学习和遥操作方面的最新进展使机器人在这种能力方面取得了进展。然而,这些方法要么需要复杂的数据收集,例如昂贵的人力与机器人的眼神接触,要么在面对新场景时泛化能力较差。为了解决这两个挑战,提出一个框架 DexH2R,将人手运动重定位与面向任务的残差动作策略相结合,通过弥合人类和机器人灵巧手之间的具身差距来提高任务性能。具体来说,DexH2R 直接从重定位的原始动作和面向任务的奖励中学习残差策略,从而无需劳动密集型的遥操作系统。此外,通过获取人手和目标的期望轨迹,为新场景结合测试时间指导,让灵巧手获得具有高泛化能力的新技能。


无论是在日常活动还是工业过程中,人类都表现出非凡的能力,能够用双手操纵各种目标。相比之下,让机器人以同样的可靠性处理如此多样化的目标仍然是一项重大挑战。强化学习 (RL) 的最新进展已在机器人灵巧操作方面取得了显著进展,使机器人能够执行抓取 [1][2]、手中目标旋转 [3] 和工具使用 [4][5] 等任务。

然而,由于动作空间很大,训练灵巧操作的 RL 策略仍然具有挑战性。例如,将 Leap 手 [6] 连接到 6 自由度 (DoF) 机械手会创建一个组合的 22 DoF 系统。为了解决这个问题,[7][1][8] 等方法将预计算的抓取作为附加约束纳入操作策略。诸如 [9][3][10] 之类的方法更进一步,通过涉及人类演示,使策略能够更好地模仿人类与目标的交互方式。虽然这些由人类定义的抓握或轨迹 [11] 可以提高学习效率,但它们经常面临泛化问题。训练后的策略严重依赖人类先验,因此很难推广到新场景,例如需要新抓握姿势的约束或目标。

以前解决上述问题的尝试,要么依赖于模拟 [2] 来创建不同的训练场景,要么依赖于遥控系统 [12] 来收集高质量数据。虽然这些方法在机器人操作和全身控制方面引起了越来越多的关注,但它们通常假设从演示到机器人的实施差距相对较小,例如灵巧手,如Shadow Hand [13],它与人手非常相似,并允许有效地重定位以初始化策略 [?][9][7]。然而,这样的假设阻碍泛化,因为许多成本低廉的灵巧手,如 Allegro [14] 和 Leap 手 [6],都表现出了明显的具身差距,因此很难实现稳健的重定向。此外,大多数遥操作工作,都侧重于将人类运动重定向到机器人 [15][16][17]。这些方法通常假设人类可以在执行过程中调整轨迹,但在策略训练期间不太重视任务的完成,需要人类额外的关注和努力在眼-机器人接触。

如图所示,所提出的 DexH2R 框架主要提供两个好处。1) 除了通过重定位获得的原始动作之外,还学习残差动作策略,该策略弥合人类和机器人灵巧手之间的差距,使模型能够适应各种任务和环境。2) 将人手轨迹纳入状态表示中,从而实现实时指导和技能适应新的和没有预见的场景。它们共同提供了一个全面的解决方案,使单一灵巧策略既可以在完成任务时跟踪人类手部动作,又可以在推理时使用人类运动线索泛化到新环境。


如图所示,将人手动作转换为机器人手动作的方法包括两个关键阶段: 通过重定向获取原始动作和通过强化学习获取残差动作。 在第一阶段,应用数据增强来增强人类演示的多样性。 然后,基于人手运动的重定向优化来推导出原始动作,从而在运动学层面提供灵巧的抓取解决方案。 接下来,用强化学习来开发残差策略,对这些原始动作进行微调,从而产生最终动作。 这种方法使机器人能够成功地沿着指定的轨迹操纵目标。 通过整合人手演示、目标轨迹和机器人的状态,该方法在推理过程中有效地将人类的抓取动作转换为机器人手部运动,确保任务成功执行。 总的来说,其方法可以通过从人手和目标中获取演示轨迹以及当前的机器人状态和目标状态来输出一系列已完成任务的动作。







请到「今天看啥」查看全文