【新智元导读】机器人界「球星」竟被CMU英伟达搞出来了!科比后仰跳投、C罗、詹皇霸气庆祝动作皆被完美复刻。2030年,我们将会看到一场人形机器人奥运会盛宴。
机器人版科比、詹皇、C罗真的来了!
只见「科比」后仰跳投,在赛场上大杀四方。
「C罗」和「詹姆斯」也纷纷展示了自己的招牌庆祝动作。以上这些还只是开胃菜,这款人形机器人还会侧跳、前跳、前踢、右踢,甚至能够完成深蹲、腿部拉伸等高难度动作。
比起波士顿动力Altas,如今人形机器人早已进化到人们难以想象的样子。正如Figure创始人所言,人形机器人iPhone时刻即将到来。那么,能够成为「机器人界的科比」,究竟是用了什么魔法?来自CMU和英伟达的华人研究团队重磅提出ASAP,一个「real2sim2real」模型,能让人形机器人掌握非常流畅且动感的全身控制动作。![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UEhYialDldsIk8sLVL8yy8Af2flYvWet55xMj5gHKtshQZcplrUSm7L8g/640?wx_fmt=png&from=appmsg)
项目主页:https://agile.human2humanoid.com/
论文地址:https://arxiv.org/abs/2502.01143
开源项目:https://github.com/LeCAR-Lab/ASAP在第一个阶段中,通过重定向的人体数据,在仿真环境中预训练运动跟踪策略。在第二阶段,将这些策略部署到现实世界,并收集真实世界数据,训练一个delta动作模型,来弥补动力学差异。然后,ASAP把这个delta动作模型集成到仿真器中,对预训练策略进行微调,让它和现实世界的动力学更匹配。英伟达高级研究科学家Jim Fan激动地表示,我们通过RL让人形机器人成功模仿C罗、詹姆斯和科比!这些神经网络模型,正在英伟达GEAR实验室的真实硬件平台上运行。在网上看到的多数机器人演示视频都是经过加速处理的,而我们特意「放慢动作速度」,让你能清晰观赏每个流畅的动作细节。我们提出的ASAP模型采用了「真实→仿真→真实」方法,成功实现了人形机器人全身控制所需的超平滑动态运动。我们首先在仿真环境对机器人进行预训练,但面临众所周知的仿真与现实差距:人工设计的物理方程难以准确模拟真实世界的动力学特性。我们的解决方案简明有效:将预训练策略部署到实体机器人采集数据,随后在仿真环境回放动作记录。虽然回放过程必然产生偏差,但这些误差恰恰成为修正物理差异的关键数据源。通过额外神经网络学习差异参数,本质上是对传统物理引擎进行「动态校准」,使机器人能依托GPU的并行计算能力,在仿真环境中获得近乎真实的大规模训练体验。未来属于混合仿真时代:既继承经典仿真引擎数十年锤炼的精准优势,又融合现代神经网络捕捉复杂现实世界的超凡能力,实现两者的协同进化。
一直以来,sim2real是实现空间与具身智能的主要路径之一,被广泛应用在机器人仿真评估当中。而real2sim2real直接打破了繁琐的动作微调的难题,弥合sim2real的差距,让机器人能够模仿各种类人的动作。Jim Fan对此畅想道,2030年的人形机器人奥运会一定会是一场盛宴!
由于仿真环境和现实世界的动力学差异,人形机器人想实现敏捷又协调的全身运动仍是巨大的挑战。
现有方法,如系统识别(SysID)和域随机化(DR)通常要花大量时间调整参数,或者生成的策略过于保守,动作不够敏捷。
本文提出了ASAP(Aligning Simulation and Real Physics)是一个两阶段框架,旨在解决动力学不匹配问题,实现敏捷的人形机器人全身动作。
ASAP实现了许多以前很难做到的高难度动作,展现出delta动作学习在缩小仿真与现实动力学差距方面的潜力。
ASAP为「sim-to-real」提供了一个很有前景的方案,为开发更灵活、更敏捷的人形机器人指明了方向。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UE4J8ibnBa8W61cZ8g0ibTGex4WwJL85Yh4ID73mp4dtzQKlLAydGaJUHg/640?wx_fmt=png&from=appmsg)
ASAP具体步骤如下:
- 运动跟踪预训练与真实轨迹收集:先从真人视频中提取动作并重定向到机器人上,预训练多个运动跟踪策略,生成真实世界的运动轨迹。
- Delta动作模型训练:基于真实世界轨迹数据,训练Delta动作模型,缩小仿真状态与真实世界状态之间的差异。
- 策略微调:Delta动作模型训练完成后,将其集成到仿真器中,使仿真器能匹配真实世界的物理特性,随后对之前预训练的运动跟踪策略进行微调。
- 真实世界部署:最后,直接在真实环境中部署微调后的策略,此时就不再需要Delta动作模型了 。
在预训练阶段,研究团队将真人运动视频作为数据来源,在仿真环境中训练动作跟踪策略。先将这些运动数据重定向到人形机器人上,然后训练一个基于相位条件的运动跟踪策略,让机器人模仿重定向后的动作。然而,如果将这一策略部署到真实硬件上,由于动力学差异,机器人的性能会下降。为解决这一问题,在后训练阶段需要收集真实世界的运行数据,包括本体感知状态,以及由动作捕捉系统记录的位置信息。随后,在仿真环境中回放这些数据,动力学差异就会以跟踪误差的形式表现出来。接着,训练一个delta动作模型,通过缩小真实世界和仿真状态的差异,学习如何补偿这些偏差。这个模型实际上是动力学误差的修正项。最后,研究者借助delta动作模型对预训练的策略进行微调,使其能够更好地适应真实世界的物理环境,从而实现更稳定、敏捷的运动控制。- 提出ASAP框架:运用强化学习和真实世界的数据来训练delta动作模型,有效缩小了仿真与现实之间的差距。
- 成功在真实环境部署全身控制策略,实现了不少以前人形机器人难以做到的动作。
- 仿真和现实环境中的大量实验表明,ASAP能够有效减少动力学不匹配问题,让机器人做出高度敏捷的动作,同时显著降低运动跟踪误差。
- 为了促进不同仿真器之间的平滑迁移,研究者开发并开源了一个多仿真器训练与评估代码库,以加快后续研究。
评估中,研究人员针对三种策略迁移进行了广泛的实验研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真实世界的Unitree G1人形机器人。
接下来,他们一共回答了三个问题。
Q1:ASAP能否优于其他基线方法,以补偿动力学失配问题?
表III中的定量结果表明,ASAP在所有重放动作长度上都持续优于OpenLoop基线,实现了更低的Eg-mpjpe和Empjpe值,这表明与测试环境轨迹的对齐程度更好。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UEORCdlrgwP3UZpyBgnqw57zAgMrNud4CF0hsHEFVq0micDic1HQ6Eagcg/640?wx_fmt=png&from=appmsg)
虽然SysID有助于解决短期动力学差距,但由于累积误差的增加,它在长期场景中表现不佳。
DeltaDynamics在长期场景中相比SysID和OpenLoop有所改进,但存在过拟合问题,这从下图5中随时间放大的级联误差可以看出。
然而,ASAP通过学习有效弥合动力学差距的残差策略,展示出了优越的泛化能力。
同时,作者在Genesis模拟器中也观察到了类似的趋势,ASAP相对于基线在所有指标上都取得了显著改进。
这些结果强调了学习增量动作模型,在减少物理差距和改善开环重放(open-loop replay)性能方面的有效性。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UEVydybM6rbHP5wicO6ZsoWhKs40MDGbibD1b3iamicuKicyAibI58mCDrlC2g/640?wx_fmt=png&from=appmsg)
Q2:ASAP能否在策略微调方面,优于SysID和Delta Dynamics?
为了解决问题2,研究人员评估了不同方法在微调强化学习策略,以提高测试环境性能方面的有效性。
如表IV所示,ASAP在两个模拟器(IsaacSim和Genesis)的所有难度级别(简单、中等和困难)中都持续优于Vanilla、SysID和DeltaDynamics等基线方法。
对于简单级别,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都达到了最低的Eg-mpjpe和Empjpe,同时具有最小的加速度(Eacc)和速度(Evel)误差。
在更具挑战性的任务中,如困难级别,最新方法的表现依旧出色,显著降低了运动跟踪误差。
例如,在Genesis中,它实现了Eg-mpjpe=129和Empjpe=77.0,大幅优于SysID和DeltaDynamics。
此外,ASAP在两个模拟器中始终保持100%的成功率,而DeltaDynamics在更困难的环境中的成功率较低。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UE1IhkiaWW3TdvwHVAAtde5iat9ZgC1W5FKpMRQh8WdEJPVwtejP4uxSWQ/640?wx_fmt=png&from=appmsg)
为了进一步说明ASAP的优势,研究人员在图7中提供了逐步可视化比较,对比了ASAP与未经微调直接部署的强化学习策略。
这些可视化结果表明,ASAP成功适应了新的动力学环境并保持稳定的跟踪性能,而基线方法则随时间累积误差,导致跟踪能力下降。
这些结果突显了,新方法在解决仿真到现实差距方面的鲁棒性和适应性,同时防止过拟合和利用。
研究结果验证了ASAP是一个有效的范式,可以提高闭环性能并确保在复杂的现实场景中可靠部署。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UE3ktSNicAVd4X5DiayiaDPaic6P85Pr6TA6dGY11gIIJaWNAjTSP9DNic1BQ/640?wx_fmt=png&from=appmsg)
Q3:ASAP是否适用于sim2real迁移?
针对第三个问题,研究人员在真实的Unitree G1机器人上验证了ASAP的有效性。
由于传感器输入噪声、机器人建模不准确和执行器差异等因素,仿真到现实的差距比模拟器之间的差异更为显著。
为了评估ASAP在解决这些差距方面的有效性,他们在两个代表性的运动跟踪任务(踢腿和「Silencer」)中比较了ASAP与Vanilla基线的闭环性能,这些任务中存在明显的仿真到现实差距。
为了展示所学习的增量动作模型对分布外运动的泛化能力,作者还对勒布朗·詹姆斯「Silencer」动作进行了策略微调,如图1和图8所示。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UEiaJJUE9PibelRIQgldbtRpxwnF023KyJDhxBqXQsB7wGST3Gdaicmia9IQ/640?wx_fmt=png&from=appmsg)
结果表明,ASAP在分布内和分布外的人形机器人运动跟踪任务中都优于基线方法,在所有关键指标(Eg-mpjpe、Empjpe、Eacc和Evel)上都实现了显著的跟踪误差减少。
这些发现突显了ASAP在改进敏捷人形机器人运动跟踪的仿真到现实迁移方面的有效性。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb3QNjOUYic0Z1LJHCOUmg3UEXUeMmPskEkRKu8qicic5LaWXV8Ga2EexsbhOtdK0rklqkQSgw4x92ia3w/640?wx_fmt=png&from=appmsg)
再接下来,研究人员就三个核心问题来全面分析ASAP。