专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
量子位  ·  花1699请DeepSeek当家教,值么? ·  15 小时前  
爱可可-爱生活  ·  【research-template:一个为 ... ·  17 小时前  
爱可可-爱生活  ·  SIFT: ... ·  22 小时前  
爱可可-爱生活  ·  【Scira:一个极简主义的AI驱动搜索引擎 ... ·  昨天  
爱可可-爱生活  ·  【[3.5k星]Bananas ... ·  昨天  
51好读  ›  专栏  ›  机器之心

从零开始自主「起身站立」,上海AI Lab发布最新控制算法,机器人:起猛了

机器之心  · 公众号  · AI  · 2025-02-25 19:36

正文

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:[email protected][email protected]

近日,上海 AI Lab 具身智能中心研究团队在机器人控制领域取得了最新突破,提出的 HoST(Humanoid Standing-up Control)算法,成功让人形机器人在多种复杂环境中实现了自主站起,并展现出强大的抗干扰能力。

这一创新不仅解决了机器人从坐姿到站姿的转换难题,还为未来人形机器人在家庭、医疗、救援等场景中的广泛应用奠定了基础。

通过强化学习框架和多项技术优化,HoST 算法在仿真和真实环境中均表现出色,为人形机器人应对实际环境中的失衡恢复、动态平衡等挑战提供了创新解决方案,进一步推动具身智能技术的实用化进程。


起猛了,人形机器人竟在上海黄浦江畔平地坐起看日出?


也能像牛顿一样坐在「苹果树」旁,起身看看天上掉下了啥。


在负重、强干扰情况下,也能自如起身。



  • 项目主页:https://taohuang13.github.io/humanoid-standingup.github.io/
  • 论文地址:https://arxiv.org/abs/2502.08378

设想人形机器人能否做到:从沙发上站起,走向桌子,拿起一杯咖啡。尽管最近的工作赋予了它们强大的运动和操作能力,但是沙发上站起这一环节,相对而言缺乏了研究。

大多数工作假设机器人从一个预定义好的站立姿势开始,执行后续任务。研究者认为,学会人形机器人站起控制能够应对上述坐立姿态转换,或是跌倒后站起等场景,有助于进一步提升人形机器人的落地场景。

和此前依赖于预定义轨迹或是忽视真机硬件限制的控制算法不同,HoST 的研究团队提出了一套从零开始、不依赖预定于轨迹的强化学习框架,能够在仿真环境中学会从多种姿势下成功站起,并且能够直接部署到真实机器人上。


核心技术

HoST 算法框架

奖励函数设计与策略优化

不同于行走与操作,站起这一控制任务动态性更强,对上下半身的动态性要求更高。特别的,对于强化学习算法而言,需要克服随时间变化的接触点、多阶段技能学习、精确的身体角动量控制,无疑对奖励函数的设计与策略优化带来了极大的困难。

为此,研究者们设计了多种奖励函数,并将其归类到了四种奖励组:任务奖励、风格奖励、约束奖励与后任务奖励。


为了能更好的平衡各个奖励函数,研究者们紧接着采用了多评论家技术,对每一个奖励函数组分别进行汇报估计,并对每个奖励函数组赋予不同权重,来最终优化控制策略。


探索策略

即使有了合理的奖励函数设计,研究者们依旧观测到了强化学习在探索上遇到的困难。

研究团队从科学家对婴儿的研究中发现,外界的帮助有助于婴儿学习许多动作技能。受此启发,研究者们设计了基于课程的辅助力探索策略。

在训练初期,基于机器人额外的向上的辅助力,帮助其更容易的站起,探索到高质量的学习样本。随着机器人逐步掌握站起能力,这一辅助力会逐步减小至零,使得机器人最终学习到无辅助力帮助下的站起控制。这一设计极大的加快了学习效率。

运动约束

研究者们观测到机器人容易学到剧烈的站起策略,为了克服这一问题,他们引入了动作缩放系数(动作界限),该缩放系数决定了 PD 控制器中的目标关节角与当前关节角的最大偏差,从而隐式的约束关节最大的力矩与速度该缩放系数初始被设置为 1。随着学习的进行,该缩放系数逐渐减弱至 0.25。


此外,研究者们还观测到了站起过程中的行为抖动。为了避免这个问题,他们在值函数网络和策略网络优化时采用了平滑约束方法(L2C2)。

真机策略迁移

为了模拟真实世界中可能见到的初始姿势,研究者们在仿真训练中设计了四种地形:平地、平台、斜坡和靠墙,以模拟真实世界中常见到的环境。

另外,为了减小物理仿真与现实中的物理参数差异,研究者们还采用了域随机化(domain randomization)的技术,在仿真中给予某些物理参数一些随机噪声,例如质心的偏移、base 重力等。

实验评估

仿真环境站起动作质量

为了更好的评估站起动作,研究人员首先提出了四个量化指标:成功率、双脚移动距离、动作平滑度和消耗能量。基于此,他们首先对 HoST 与其消融版本在仿真中进行了比较。结果如下表显示,多评论家、辅助力探索、运动约束均对策略学习有着显著的影响。

例如,机器人在缺少前两者的情况下,无法在大多数地形上成功学到站起技能;缺少运动约束会使得站起动作不够平滑。这些验证了上述技术设计的重要性。







请到「今天看啥」查看全文