专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
微观三农  ·  今日学习 · 激发人才创新活力和潜力 ·  13 小时前  
微观三农  ·  韩俊在农业农村部直属单位调研时强调 ... ·  昨天  
微观三农  ·  农业农村部部署2025年畜牧兽医工作 ·  昨天  
骏景农业  ·  注意!玉米开始全面上涨! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

ExBody:人形机器人富有表现的全身控制

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-04 00:39

正文

24年3月来自UCSD的论文“Expressive Whole-Body Control for Humanoid Robots”。

能否使人形机器人在现实世界中做出丰富多样、富有表现的动作?在人形机器人上学习全身控制策略,尽可能真实地模仿人类动作。为了训练这样的策略,在强化学习框架中利用图形学社区的大规模人体动作捕捉数据。然而,由于自由度和人体能力的差距很大,直接使用动作捕捉数据集进行模仿学习,对真实的人形机器人不起作用。本文提出的方法“富有表现力的全身控制”(ExBody),通过鼓励上半身模仿参考动作来解决此问题,同时放松对其两条腿的模仿限制,仅要求它们稳健地遵循给定的速度。通过模拟训练和 Sim2Real 迁移,其策略可以控制人形机器人以不同的方式行走、与人类握手,甚至在现实世界中与人类跳舞。对模拟和现实世界中的各种动作进行广泛的研究和比较,证明该方法的有效性。

如图所示机器人在不同场景中展现丰富多彩且富有表现的全身动作。上排:机器人正在与人类跳舞、拥抱和拍手。中排:机器人能够在不同的地形上行走,包括碎石和木屑路径、倾斜的混凝土路径、草地和路边,并做出各种表情,如僵尸行走、夸张的步伐或挥手。左下排:机器人能够用挥手手势打开挥手感应门。右下排:机器人正在握手和挑衅。



腿式机器人的全身控制。 腿式机器人经常需要协调整个身体来完成某些任务或动作,比如跳舞、伸手拿远处的物体等,这些以前主要通过动力学建模和控制来实现 [40, 61, 21, 41, 9, 26, 57]。然而,对于具有高度自由度的人形机器人 [17, 27, 20, 7, 2, 1],这将需要大量的工程和建模 [51],并且对现实世界的动态变化很敏感。最近基于学习的方法 [15, 22, 5, 23, 48, 25, 24] 实现四足机器人的全身运动和操纵。这些进展也使得基于学习的人形控制更加有效 [29, 52, 31, 49]。然而,大多数研究更多地关注运动方面或学习相对较小的数据集。

腿部运动 。通过奖励指定 [39, 28, 14, 13]、模仿学习 [11] 和步态启发式 [30, 50],人们广泛研究在具有挑战性的地形上盲腿运动。基于视觉的运动在穿越楼梯 [4, 60, 38, 10]、征服跑酷障碍 [63, 6]、操纵箱子 [8] 等方面取得巨大成功。然而,这些研究并没有充分利用演示数据。即使是利用重定位的动物运动或预先优化轨迹的研究,仍然利用非常小的数据集 [43, 56, 11, 16, 59]。

基于物理的角色动画。 全身人形运动控制已在计算机图形学领域得到广泛研究,其目标是生成逼真的角色行为。随着运动越来越多,对抗方法(如 [45、46、53、19])会遭受模式崩溃的影响。Peng [46] 使用单位球潜空间来表示 187 种运动。然而,它仍然遭受模式崩溃的影响,因此使用额外的技能发现目标(skill discovery objective)。基于模仿的方法 [58、55、62、42] 通过将控制和运动生成解耦来缓解这个问题,其中训练通用运动跟踪控制器来跟踪任何运动,然后运动生成器输出要跟踪的运动。这些研究证明向真实四足机器人 [44、11] 的成功迁移。[58] 将整个 CMU MoCap 数据分成几个簇,并训练混合专家策略来为整个数据集重现物理上合理的控制器。Luo [58] [35] 使用类似的想法,通过逐步分配新网络来学习新动作。然而,这些方法很难迁移到真正的人形机器人上,因为角色模型不切实际(SMPL 人形机器人 [33] 总共有 69 个自由度,23 个驱动球形关节,每个关节有 3 个自由度,通常没有扭矩限制),模拟中使用的特权信息(机器人的世界坐标、速度等)如表所示:在 PHC 中,策略观察每个刚体的线性速度和关键点位置,而在 ASE 中,线性速度仅适用于根;PHC 和 ASE 都观察到真实机器人上不存在的特权状态。


人形机器人运动控制就是学习目标条件运动策略π:G × S → A,其中G是指定行为的目标空间,S是观察空间,A是包含关节位置和扭矩的动作空间。假设观察空间和动作空间由H1人形机器人设计给出,不失一般性。然而,提出的方法应该可以泛化到类似的身体形态,只是驱动自由度的确切数量有所不同。

命令调节的运动控制目标是为 Unitree H1 硬件制定一个强大的控制策略,该策略可以通过线速度 v 、行/俯仰/偏航 rpy 表示的身体姿势和在根链接处测量的身体高度 h 来控制。正式地, 根运动控制的目标空间 G^m = ⟨v, rpy, h⟩。该策略不会观察当前速度 v、绝对身高 h 和当前偏航角 yt,因为这些是真实机器人的特权信息。

本文 扩展命令调节的运动控制 ,包括 G^m 中根姿态和速度无法捕捉的机器人运动描述。将其公式化为更通用的目标空间 G = G^e ×G^m,其中 表达式目标 g^e ∼ G^e 包括所需关节角度和身体的各种 3D 关键点位置。

具体来说,本文处理一个宽松的问题,即从 G^e 中排除下半身的关节和关键点。这是因为机器人的身体结构与人类不同,而从人体运动捕捉数据中包含这些下半身特征,往往会过度限制问题并导致脆弱且性能不佳的控制策略。正式地, G^e = ⟨q, p⟩,其中 q 是上半身九个执行器的关节位置,p 是两个肩膀、两个肘部以及左右手的 3D 关键点。 富有表现全身控制 (ExBody) 的目标,是同时跟踪根运动目标(针对整个身体)g^m ∼ G^m,以及针对上半身的目标(target)表达式目标(goal)g^e ∼ G^e。


提出富有表现的全身控制(ExBody),在人形机器人上实现富有表现和稳健的运动控制,如图所示。


整理人类行为数据的策略

在研究中,选择性地使用 CMU MoCap 数据集的一部分,排除涉及与他人、重物或崎岖地形的物理交互运动。这是半自动完成的,因为框架无法实际实现具有显着环境交互的运动。结果运动在表 II 中给出。


如图绘制根运动目标 g^e 的分布。世界框架中的偏航角没有太多意义,因为在训练期间,所有的观察都在机器人的局部框架中。所以改为可视化偏航角速度。从图 a 中,选择的运动涵盖向前、向后和侧向行走,并且偏向于向前行走,在侧向行走上是对称的。从图 b 中,该栗色分布沿滚动角的运动最小,因为人类通常不会将身体向侧面倾斜。然而,在俯仰方面,它偏向于向前弯曲而不是向后弯曲。并且随着俯仰角变大,滚转角的分布会变小,这与人类的偏见产生共鸣。从图 c 中,机器人的高度集中在其标称高度附近,变化很小。从图 d 中转弯动作非常平衡,并且有左转和右转动作。与 [13] 不同,其使用球面坐标系随机采样点,然后检查这些点是否在地面下或与机器人本身发生碰撞,本文从大量人类数据获取,自然具有通常不会违反此类约束的样本。即使在重定位后与机器人本身发生一些碰撞,RL 也会通过碰撞惩罚来避免它。


运动重定向到硬件

考虑到 H1 机器人与人类在形态上存在明显差异,通过将局部关节旋转直接映射到机器人骨架上,将人体运动数据调整到机器人的框架中。用 Unitree H1 机器人 [3] 作为平台,总质量约为 51.5 公斤,高度约为 1.8 米。Unitree H1 机器人有 19 个自由度。肩关节和髋关节有 3 个垂直连接的旋转关节电机,因此相当于人体运动数据集中通常使用的球形关节 [36, 18]。在重定向过程中,将 3 个髋关节或肩关节视为 1 个球形关节。重定向后,通过指数映射将由规范化四元数 q^i/m =(qx,qy,qz,qw)表示的球形关节,重映射到3个旋转关节的原始关节角度 m = [m1,m2,m3]。







请到「今天看啥」查看全文