专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[42星]GIDD:一种新型离散扩散模型框 ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与!-20250 ... ·  2 天前  
51好读  ›  专栏  ›  新智元

英伟达机器人跳APT舞惊艳全网,科比C罗完美复刻!CMU 00后华人共同一作

新智元  · 公众号  · AI  · 2025-02-05 12:48

正文



新智元报道

编辑:编辑部 HYs
【新智元导读】 机器人界「球星」竟被CMU英伟达搞出来了!科比后仰跳投、C罗、詹皇霸气庆祝动作皆被完美复刻。2030年,我们将会看到一场人形机器人奥运会盛宴。

机器人版科比、詹皇、C罗真的来了!

只见「科比」后仰跳投,在赛场上大杀四方。

「C罗」和「詹姆斯」也纷纷展示了自己的招牌庆祝动作。
以上这些还只是开胃菜,这款人形机器人还会侧跳、前跳、前踢、右踢,甚至能够完成深蹲、腿部拉伸等高难度动作。

左右 滑动查看

更惊艳的是,它还会跳APT舞,非常嗨皮。

比起波士顿动力Altas,如今人形机器人早已进化到人们难以想象的样子。正如Figure创始人所言,人形机器人iPhone时刻即将到来。
那么,能够成为「机器人界的科比」,究竟是用了什么魔法?
来自CMU和英伟达的华人研究团队重磅提出ASAP,一个「real2sim2real」模型,能让人形机器人掌握非常流畅且动感的全身控制动作。

项目主页:https://agile.human2humanoid.com/

论文地址:https://arxiv.org/abs/2502.01143

开源项目:https://github.com/LeCAR-Lab/ASAP
它包含了两大阶段——预训练和后训练。
在第一个阶段中,通过重定向的人体数据,在仿真环境中预训练运动跟踪策略。
在第二阶段,将这些策略部署到现实世界,并收集真实世界数据,训练一个delta动作模型,来弥补动力学差异。
然后,ASAP把这个delta动作模型集成到仿真器中,对预训练策略进行微调,让它和现实世界的动力学更匹配。
英伟达高级研究科学家Jim Fan激动地表示,我们通过RL让人形机器人成功模仿C罗、詹姆斯和科比!
这些神经网络模型,正在英伟达GEAR实验室的真实硬件平台上运行。
在网上看到的多数机器人演示视频都是经过加速处理的,而我们特意「放慢动作速度」,让你能清晰观赏每个流畅的动作细节。
我们提出的ASAP模型采用了「真实→仿真→真实」方法,成功实现了人形机器人全身控制所需的超平滑动态运动。
我们首先在仿真环境对机器人进行预训练,但面临众所周知的仿真与现实差距:人工设计的物理方程难以准确模拟真实世界的动力学特性。
我们的解决方案简明有效:将预训练策略部署到实体机器人采集数据,随后在仿真环境回放动作记录。虽然回放过程必然产生偏差,但这些误差恰恰成为修正物理差异的关键数据源。通过额外神经网络学习差异参数,本质上是对传统物理引擎进行「动态校准」,使机器人能依托GPU的并行计算能力,在仿真环境中获得近乎真实的大规模训练体验。
未来属于混合仿真时代:既继承经典仿真引擎数十年锤炼的精准优势,又融合现代神经网络捕捉复杂现实世界的超凡能力,实现两者的协同进化。
一直以来,sim2real是实现空间与具身智能的主要路径之一,被广泛应用在机器人仿真评估当中。
而real2sim2real直接打破了繁琐的动作微调的难题,弥合sim2real的差距,让机器人能够模仿各种类人的动作。
Jim Fan对此畅想道,2030年的人形机器人奥运会一定会是一场盛宴!
有网友期待地表示,真想看看它们打拳击的表现。

ASAP,机器人奥运会不远了


由于仿真环境和现实世界的动力学差异,人形机器人想实现敏捷又协调的全身运动仍是巨大的挑战。

现有方法,如系统识别(SysID)和域随机化(DR)通常要花大量时间调整参数,或者生成的策略过于保守,动作不够敏捷。

本文提出了ASAP(Aligning Simulation and Real Physics)是一个两阶段框架,旨在解决动力学不匹配问题,实现敏捷的人形机器人全身动作。

ASAP实现了许多以前很难做到的高难度动作,展现出delta动作学习在缩小仿真与现实动力学差距方面的潜力。

ASAP为「sim-to-real」提供了一个很有前景的方案,为开发更灵活、更敏捷的人形机器人指明了方向。

ASAP具体步骤如下:

  1. 运动跟踪预训练与真实轨迹收集:先从真人视频中提取动作并重定向到机器人上,预训练多个运动跟踪策略,生成真实世界的运动轨迹。
  2. Delta动作模型训练:基于真实世界轨迹数据,训练Delta动作模型,缩小仿真状态与真实世界状态之间的差异。
  3. 策略微调:Delta动作模型训练完成后,将其集成到仿真器中,使仿真器能匹配真实世界的物理特性,随后对之前预训练的运动跟踪策略进行微调。
  4. 真实世界部署:最后,直接在真实环境中部署微调后的策略,此时就不再需要Delta动作模型了 。

两阶段:预训练+后训练







请到「今天看啥」查看全文