专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
九派新闻  ·  武汉籍知名歌手亮相央视!旋律一响就哭了 ·  23 小时前  
九派新闻  ·  武汉籍知名歌手亮相央视!旋律一响就哭了 ·  23 小时前  
新浪科技  ·  【#iPhoneSE4预计下周发布#】第四代 ... ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

运动重定位,实现丰富-接触的拟人化操控

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-05 00:05

正文

24年2月来自CMU、Meta和Boston dynamic的论文“Kinematic Motion Retargeting for Contact-Rich Anthropomorphic Manipulations”。

现在,即使对于复杂的抓握,手部运动捕捉数据也相对容易获得;但是,如果不能将其重定位到特定角色或机器人的手上,这些数据的用途将非常有限。目标手在几何形状、自由度 (DOF) 数量或手指数量方面可能存在巨大差异。本文提出一个简单但有效的框架,利用接触面积,将多个人手-目标操作从公开可用的数据集中重定位到各种运动和形态各异的目标手上。将重定位操作公式化为非等距的形状匹配问题来实现这一点,并使用表面接触和标记数据的组合,通过逆运动学 (IK) 逐步估计、改进和拟合最终目标手轨迹。该框架的基础是引入一种形状匹配过程,它能够在完整操作中实现可预测且稳健的接触数据迁移,同时为艺术家提供了一种直观的方法来指定相对较少的输入对应关系。通过 30 个演示来验证该框架,涵盖五种不同的手形和六种不同目标的运动。此外,还与现有的手部重定向方法进行比较。最后,展示实现目标替换等新功能,并能够可视化其设计选择对整个轨迹的影响。


运动捕捉 (mocap) 技术的进步使得收集高细节水平的运动数据成为可能,包括一次捕捉中的大规模身体运动和细粒度的手部运动 [Romero,2017];然而,使用这些数据仍然很困难,因为数据的目标具身几乎从来都与演示者不同。特别是对于手部,由于所需的手部模型有很多种,而且要使抓握看起来引人注目,尤其是那些有许多接触点的抓握,通常需要重定位。不幸的是,这个过程通常会产生运动错位或接触不足等伪影,这些伪影很难在后处理中修复。当目标手不像人类时,无论是不同的手指比例、自由度还是手指数量,这个问题都会变得更具挑战性。

缺乏可靠的重定位方法来调整现有接触丰富的手部运动数据——特别是之前为目标以外手部收集的数据——仍然是多个社区的一致瓶颈。在电影和游戏制作中,动画师花费大量时间为不同的角色装备定制常见操作。在机器人学习中,将现有操作数据适应不同手部难度加剧了数据稀疏问题 [Sivakumar,2022],这反过来又限制监督和半监督机器学习算法的可行性。一种重新利用现有数据的标准化方法,尤其是那些易于从人类那里收集的数据,将为广泛的应用提供急需的解决方案。

将现有的运动数据适配到新角色是一个长期存在且研究充分的问题,无论是全身动画还是手部动画。

基于关节的重定向仍然是全身角色动画的常用方法;然而,解决环境和自接触事件使这一过程变得复杂。提出的解决方案包括仅使用基于学习的方法 [Aberman et al. 2020] 或通过基于物理的模拟 [Ryu et al. 2021; Won & Lee 2019] 来适应体形的变化,在优化过程中区分不必要的自接触和所需的脚部接触 [Villegas et al. 2021],利用空间图 [Kim et al. 2016]、标准化包裹网格 [Jin et al. 2018] 或交互图 [Zhang et al. 2023],以及动态-增强的投影运动优化 [Lee & Lee 2019]。这些方法已经产生了有用的结果;然而,手部和全身重定向之间的一个关键区别,是使动作在视觉上引人注目所需的接触点数量。

更具体地说,即使对于在多个角色和目标之间传输高度复杂的交互,目标和不同身体部位之间的单点接触,也已被证明在整个身体尺度上相当充分 [Zhang et al. 2023]。相反,研究表明,少量的点不足以建模手和目标之间真实交互的复杂性 [Lakshmipathy et al. 2023]。此外,如图所示,不同角色的手形、形态和运动学可能有很大差异,这进一步加剧了问题。其中(a)源 MANO hand、(b)另一个人手、(c)女巫手、(d)外星人手、(e)定制假肢手和(f)Allegro hand。(g)通过形状匹配在整个时间序列中程序地迁移接触区域,将源手执行的演示重定位到所有这些手上。


从手部跟踪重定向运动的常用方法包括直接关节映射 [Kumar and Todorov 2015; Rajeswaran et al. 2018]、基于关键点的 IK [Antotsiou et al. 2018; Dasari et al. 2023; Humberston & Pai 2015;Qin 2022]、从输入关节角度计算逆动力学 [Kry & Pai 2006] 以及通过相对矢量距离计算手形(以下称为“功能姿态等效性”) [Handa et al. 2019; Sivakumar et al. 2022]。当这些手更加发散时,后一种方法仍然是最先进的方法。这些方法也可以适应以前收集的数据;然而,这样做通常会产生严重的伪影,这些伪影在后处理中很难清除。

物理模拟也常用于提高视觉可信度和 Sim2Real 迁移成功率。由于操作过程中频繁建立和断开接触的复杂性,有几种方法采用从演示中学习 (LfD) 从人体运动数据中生成基于物理的目标手策略 [Dasari et al. 2023; Qin et al. 2022; Wu et al. 2022a]。标准运动学这些方法中经常使用重定向技术(例如直接关节映射、关键点或关键向量 IK)来创建专家轨迹并随后预填充奖励表;但是,如果重定向的手部轨迹较差,则此策略可能会导致失败或意外结果。识别重定向失败以及从策略学习和奖励成形中解藕错误分布,在规模上尤其具有挑战性。这项工作中的目标是提供一种可靠的上游专家轨迹估计解决方案,可与任何下游物理模拟器结合使用。

目前没有标准化的解决方案可以可靠地重定位现有的手-目标运动数据。这项工作中认为,接触信息对于在广泛的动作和手中产生高质量的结果,至关重要。


该重定向流水线如图所示,可分为以下步骤:

  • (1) 每帧提取目标和源手之间密集的对应接触区域集

  • (2) 在所有帧中程序化地将所有接触从源手迁移到目标手

  • (3) 使用固定标记和迁移的接触,估计目标手的初始轨迹

  • (4) 优化估计以提高时间一致性

  • (5) 通过样条拟合构建最终轨迹


重要的是,流水线假设所需的解决方案是尝试尽可能精确地匹配源操作的交互机制。因此,假设目标上的接触在所有手中都是相同的。

需要现有的手-目标运动数据作为输入,期望至少包括:

  • i 原始目标和手的精确网格

  • ii 一组密集的每帧接触注释,无论是目标还是手网格

  • iii 定义运动序列的一组完整帧

GRAB [Taheri et al. 2020] 和 ARTIC [Fan et al. 2023] 数据集包含所有三种类型的数据。选择前者作为实验的数据源。重要的是,只需要一组密集接触,不需要原始手骨架。







请到「今天看啥」查看全文