24年12月来自 UCSD、UCB、MIT 和 Nvidia的论文“ExBody2: Advanced Expressive Humanoid Whole-Body Control”。
本文使现实世界的人形机器人能够在像人类一样做出富有表现的动作同时保持稳定性。提出高级富有表现的全身控制 (ExBody2),一个泛化的全身跟踪框架,可以接受任何参考动作输入并控制人形机器人模仿动作。该模型在模拟中使用强化学习进行训练,然后迁移到现实世界。它将关键点跟踪与速度控制解耦,并有效地利用特权教师策略将精确的模仿技能蒸馏到目标学生策略中,从而实现对跑步、蹲伏、跳舞等动态动作以及其他挑战性运动的高保真复制。对关键设计因素进行全面的定性和定量分析,在两个人形机器人平台上进行实验,并证明其方法的优越性,为人形机器人全身控制的极致追求提供实用指南。
如图所示人形机器人在现实世界中执行各种富有表现的全身动作。机器人可以 (a) 从静止站立大步行走,(b) 沿着长线跳舞(43 秒)编舞,(c) 蹲下和站立,(d) 以不同的高度配置出拳,(e、f) 在保持平衡的同时表达各种上身动作。
人形机器人形态与人类相似,具有执行人类日常生活中能够完成的各种任务和动作的潜力。然而,由于状态空间高维且控制复杂,开发类似人类的行为仍然具有挑战性,限制在现实世界中的应用。随着大规模人体运动数据集 [4, 45] 的日益普及,应对这一挑战的一个实用方法是学习通过跟踪和模仿人类运动来复制多种动作 [8, 20, 23, 24]。然而,从硬件角度来看,人形机器人与人类仍然存在很大差异,阻碍机器人完全复制人类运动的能力。这就提出了一个引人注目的研究问题:考虑到人形机器人的物理限制,如何在保持其稳定性和鲁棒性的同时,追求其富有表现力的类人能力?
人形机器人全身控制。
由于系统的高度非线性,人形机器人的全身控制仍然是一个具有挑战性的问题。传统方法主要依赖于动力学建模和控制 [10–13、26、28、33、35、49–51、58、73、76]。强化学习和模拟-到-现实迁移方面的最新进展已显示出良好的效果,使四足机器人和人形机器人能够掌握复杂的全身技能 [1、6、7、14、16–19、21、29–32、37、39–42、47、48、52、56、57、61–63、66、72、74、75、80]。值得注意的是,[8, 20, 24] 等研究集中于人形全身控制的表现性运动,应用于操纵和模仿学习。然而,这些方法在表现力和机动性方面仍然存在局限性,凸显了人形机器人尚未开发的潜力。
机器人运动模仿。
机器人运动模仿可以分为两个主要领域:操纵和表现力。对于操纵任务,机器人(通常是轮式或桌面式)优先考虑精确控制平衡和地面接触,因此人形形态不再必要。这种机器人通常利用来自遥控数据 [2, 3, 79] 或人类演示 [5, 34, 65, 70]。相比之下,表现力动作模仿侧重于从人类或动物动作捕捉数据中学习栩栩如生的行为。由于需要对接触和平衡进行细粒度控制,因此这项任务更具挑战性。虽然强化学习已使基于物理的角色运动模仿在模拟中成为可能 [22, 43, 44, 54, 55, 67, 68, 71, 77],但将此类方法迁移到真实机器人上仍然是一项重大挑战 [8, 15, 16, 20, 23, 25, 53]。
人体运动数据
。人体运动捕捉数据集 [4, 36, 45] 为训练低级策略提供丰富的参考运动来源。此外,生成建模方面的最新进展,能够使用以文本输入为条件的扩散模型 [69, 78] 和运动变分自动编码器 (VAE) [43] 创建多模态运动数据。
高级富有表现的全身控制 (ExBody2),是一个简单有效的模拟-到-现实框架,用于富有表现和鲁棒性的全身控制。如图所示,ExBody2 由四个主要组件组成:数据集管理、策略学习、运动合成和真实世界部署。
在整理运动数据集时,重点关注动作的详细分析和选择,尤其是区分上半身和下半身运动所需的能力。这种战略方法旨在机器人实现可行限度内优化动作的多样性。
ExBody2 旨在更富有表现地跟踪全身目标运动。为此,ExBody2 采用有效的两阶段师生训练程序,如 [37, 38] 中所述。具体来说,Oracle 教师策略首先使用现成的强化学习 (RL) 算法 PPO [60] 进行训练,该算法使用只能在模拟器中获得的特权信息。对于第二阶段,用与现实世界一致的观察结果替换特权信息,并将教师策略蒸馏为可部署的学生策略。系统用 IsaacGym [46] 和高效的并行模拟来训练策略。
在教师策略 PPO 中,特权信息 pt 包含人形机器人和环境的一些真实状态,这些状态只能在模拟器中观察到。它包含真实根速度、真实身体链接的位置和物理属性(例如摩擦系数、电机强度)。特权信息可以显著提高 RL 算法的采样效率,这通常用于获得高性能的教师策略。
与 Exbody [9] 类似,ExBody2 在准确跟踪全身运动时,会学习一种可通过操纵杆命令(例如线速度和身体姿势)控制的策略。运动跟踪目标由两个部分组成,即 (1) 上半身和下半身所需的关节和 3D 关键点,以及 (2) 目标根速度和根姿势。
奖励函数经过精心构建,可提高人形机器人运动的性能和真实感。奖励的主要组成部分包括跟踪根速度、方向和方向,以及精确跟踪关键点和关节位置。此外,还加入几个正则化项,旨在提高机器人的稳定性并增强从模拟-到-实际应用的可迁移性。
为了训练学生策略,采用 DAg-ger [59] 中使用的策略,在模拟环境中推出学生策略 π 来生成训练数据。对于每个访问状态,教师策略 πˆ 计算oracle动作作为监督信号。继续通过迭代最小化累积数据的损失 l 来完善策略 π。πˆ 的训练通过连续展开继续进行,直到损失 l 达到收敛。训练学生策略的一个关键方面是保留足够长的历史观察序列。
运动跟踪包括两个目标:跟踪 DoF(关节)位置和关键点(身体关键点)位置。关键点跟踪通常在跟踪运动中起着至关重要的作用,因为关节 DoF 误差会传播到整个身体,而关键点跟踪则直接应用于身体。现有的工作,如 H2O、OmniH2O [23, 24] 学习跟踪全局关键点的轨迹。然而,这种全局跟踪策略通常会导致跟踪行为不理想或失败,因为全局关键点可能会随时间漂移,导致累积误差,最终阻碍学习。为了解决这个问题,将全局关键点映射到机器人的当前坐标系,并改为使用基于速度的全局跟踪。速度和运动的协调允许以最大的表现力完成跟踪,即使出现轻微的位置偏差。此外,为了进一步增强机器人跟踪具有挑战性关键点运动的能力,在训练阶段允许关键点出现小幅全局漂移,并定期将它们校正到机器人的当前坐标系。在部署过程中,严格采用速度分解控制的局部关键点跟踪。
现有的运动数据通常较短,这限制人形机器人连续执行有趣且扩展的行为。为了克服这个问题,训练条件变分自动编码器 (CVAE) [64, 79] 来合成可以直接用于全身跟踪策略的未来动作,使机器人能够在部署期间无缝执行复杂且富有表现力的动作。
在 IsaacGym [46] 模拟器中跨两个机器人平台(Unitree G1 和 H1)进行实验。