来自英伟达、CMU和UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER。该控制器仅使用一个1.5M参数模型就可以控制人形机器人的身体,实现了底层运动逻辑的类人化。该团队通过训练一个神经网络来控制人形机器人的身体,并解决了多种控制模式的挑战,支持无缝切换不同控制模式。此外,他们还进行了实验验证HOVER的性能,并与其他方法进行比较。
进行了多项实验验证HOVER的性能,并与其他方法进行比较,证明其优于其他特定控制模式和通用训练方法。
【新智元导读】
来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER,仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人,现在有了HOVER,连底层运动逻辑都可以类人了!
1.5M参数模型就可以控制人形机器人的身体?!
英伟达高级科学家Jim Fan表示,并不是每个基础模型都需要规模庞大。我们训练了一个拥有150万参数的神经网络来控制人形机器人的身体。
来自英伟达、CMU、UC伯克利等团队提出了HOVER(Humanoid Versatile Controller),一个人形机器人通用的全身控制器。
对于人类来说,行走、保持平衡、将手臂和腿移动到期望的位置都需要大量的潜意识处理。
相应地,对于人形机器人来说,实现全身控制需要适应多种任务,比如导航、行走和桌面操作。
每种任务都需要不同的控制模式。例如,导航依赖于根速度(root velocity)或位置追踪,而桌面操作则主要关注上半身关节角度的跟踪。
现有的方法通常针对特定任务设计独立策略,这不仅使机器人开发过程重复且耗时,还限制了最终全身控制器的多功能性。
例如,使用根速度跟踪(root velocity tracking)在不平地形上进行两足行走的机器人,在需要精确双臂操作的任务中会遇到困难,因为这些任务可能需要关节角度或末端执行器跟踪。
所有这些运动控制模式都应用于同一个硬件平台,自然会引出一个问题:能否创建一个支持所有控制模式的统一控制器,以结合每种模式的优势?
这并非一个简单的挑战,因为每种模式在不同的指令空间内运行,直接集成并不可行。
然而,尽管控制接口有所不同,其底层运动目标往往是一致的:即实现稳定、类人的运动,以满足人形机器人的控制需求。
由此,Jim Fan团队提出一个关键见解:全身运动的动作模仿可以作为这些任务的共同抽象,为学习多种全身控制模式提供通用的运动技能。
在此基础之上,他们提出了HOVER(Humanoid Versatile Controller,人形通用控制器),这是一个多模式策略蒸馏框架,能够将不同的控制模式整合为一个统一的策略。
论文地址:https://arxiv.org/abs/2410.21229
HOVER支持在各控制模式之间的无缝切换,同时保留每种模式的独特优势,为人形机器人在广泛的模式下提供了一种稳健且可扩展的控制解决方案。
也就是说,Jim Fan团队在HOVER中捕捉到了一种和人类相似的「潜意识」,这种「潜意识」能够学习如何协调人形机器人的电机以支持各种运动和操作。
人形机器人的运动和操作之前只是外表看起来类人,现在有了HOVER,连底层运动逻辑都可以类人了!
HOVER能够切实地消除为每个控制模式单独重新训练策略的需求,该方法提高了未来人形机器人应用的效率和灵活性。
相比之下,HOVER支持所有的控制模式
Jin Fan团队将此问题表述为一个针对人形机器人控制的目标条件强化学习(RL)任务,并进行了人形机器人控制的指令空间设计。
指令空间包括两个主要控制区域——上半身和下半身控制——并且整合了三种不同的控制模式:
1. 运动学位置跟踪:
机器人关键刚体点的目标三维位置。
2. 局部关节角度跟踪:
每个机器人马达的目标关节角度。
3. 根追踪:
目标根速度、高度和姿态,由横滚、俯仰和偏航角指定。
高亮的方框表示正在被跟踪的活动指令,而右侧的虚线框所示的屏蔽机制可以选择性地激活不同的指令空间,以适应各种任务需求
「Oracle」策略
在训练HOVER策略之前,首先通过大量人类运动数据训练一个「Oracle」策略,使其能够模仿人类的全身运动。
这一过程包括设计状态空间、奖励系统以及应用域随机化来支持从仿真到现实的转换。
状态空间设计
:Oracle策略的状态包括机器人身体的刚体位置、姿态、速度和上一时刻的动作历史。同时引入目标状态,用来定义参考姿态和当前状态的差异,为机器人提供详细的运动目标。
奖励设计
:奖励分为三部分:惩罚、正则化以及任务奖励。具体权重和细节见下列表格,用以确保机器人能够有效地执行目标运动并减少误差。
域随机化
:为了使仿真环境中学到的策略能够成功转移到现实中,对模拟环境中的物理参数进行随机化,以提高模型在现实世界中的泛化能力。
策略蒸馏与DAgger算法的应用
在训练Oracle策略后,使用「蒸馏」过程将Oracle策略中的技能转移到HOVER策略中,以使其能够实现多模式控制。
这个过程通过DAgger算法完成,该算法是一种监督学习方法,用于使学生策略的动作逐渐与Oracle策略对齐。
任务
指令
屏蔽
:HOVER使用特定模式和稀疏性屏蔽来生成不同的任务指令模式,并通过这些屏蔽激活不同的指令空间组件,从而支持多模式控制。HOVER策略能够在上半身和下半身的控制中选择性地跟踪某些关节和运动目标。
动作对齐与优化
:在每个时间步,学生策略从Oracle策略中获取目标动作,通过最小化目标动作和当前动作的差距来更新自身,从而优化策略的表现。此过程的核心是将Oracle策略的优点有效地转移到HOVER策略中,使其能够支持多种控制模式的无缝切换。
Q1:HOVER作为一种通用策略,能否在特定指令配置下表现优于其他策略?
Q2:HOVER能否优于其他多模式人形机器人控制器的训练方法?
Q3:HOVER能否迁移到真实硬件上并执行多样的多模式控制?
A1:与特定控制模式的比较
与已有研究工作中特定控制模式策略的比较
Jim Fan团队将HOVER策略在不同控制模式下的表现与相应的特定策略进行了比较。
例如,HOVER在ExBody模式下的表现通过固定屏蔽来匹配ExBody模式,并在整个数据集Qˆ上进行评估。
HOVER在各种控制模式下表现出优越的泛化能力。在每个指令模式下,HOVER至少在12项指标中的7项上优于此前工作的特定控制器,显著性指标在下表中以粗体标出。
HOVER与基线方法在数据集Qˆ上的仿真运动模仿评估
HOVER在不同控制模式中的一致优势体现了其多功能性。此外,即使仅在单一控制模式下,基于Oracle策略的蒸馏方法仍优于RL训练的特定策略。
与其他常用控制模式特定策略的比较
除了前述基线之外,Jim Fan团队还评估了四种附加模式:左手模式、右手模式、双手模式和头部模式。他们分别训练了四个RL特定策略以单独跟踪这些模式。
左手模式、双手模式、右手模式
下表的结果表明,HOVER在跟踪特定指令配置的指标上持续优于这些特定策略。
A2:与其他通用训练方法的比较
Jim Fan团队将HOVER与一种多模式RL基线进行比较,该基线采用相同的指令屏蔽过程,但从零开始以RL目标进行训练。
在下图中,他们评估了四项指标的跟踪误差:根部姿态、上半身关节角度、局部身体位置和全局身体位置,测量于八种不同模式下。
结果显示,HOVER在32项指标和模式中的跟踪误差始终较低。这一性能提升表明,从跟踪全身运动学的Oracle策略中蒸馏出通用全身控制器具有重要意义。
A3:真实环境评估
Jin Fan团队进行了定量的跟踪实验和定性的行走测试,以评估HOVER多模式控制能力。
站立运动评估
他们在真实环境中评估HOVER的性能,测试了数据集Qˆ中的20种不同站立运动。