话不多说,先来一起看一段视频!
人形机器人要做到像上面视频中一样灵活,难度有多大?
当前,人形机器人正以惊人的速度跨越技术边界,展现出愈发接近人类的操作精度与互动灵活性,这一里程碑式的进步,离不开对复杂环境中顺序接触任务执行的深度探索。
在现实世界的复杂机器人交互与操作中,人形机器人能否流畅执行涉及顺序接触的任务,显得尤为关键。传统方法往往依赖于基于模型的运动规划或轨迹优化技术,但这些手段不仅耗时冗长,而且高度依赖简化的低阶动力学模型,这在一定程度上削弱了运动表现的细腻度与实际应用的广泛性。
近年来,无模型强化学习(Reinforcement Learning, 简称RL)凭借其卓越的模型不匹配及不确定性处理能力,在腿式机器人的实时敏捷运动控制领域崭露头角。然而,现有RL研究大多聚焦于基础运动任务,如行走等,而对于那些需要精确实现特定接触序列的复杂任务,则显得力不从心。尽管已有少数研究尝试将RL应用于受限落脚点的运动控制或特定情境下的任务感知接触序列,但这些方案往往针对特定任务或转换进行了大量定制化调整,缺乏足够的通用性。此外,仿真到现实世界的迁移难题,以及不同策略间公式和奖励函数的不一致性,也严重制约了RL在长期、复杂任务中的实际应用潜力。
如何在任务执行过程中精确而高效地调控一系列顺序接触,已成为行业内亟待解决的一大技术难题。
▍提出WoCoCo框架,解决人形机器人顺序接触任务执行难题!
针对这一挑战,来自卡内基梅隆大学的研究团队前不久展开了一项开创性工作,旨在将模型求解器的简洁高效与强化学习(Reinforcement Learning,简称RL)框架的灵活适应性相融合,为破解这一难题提供了新的思路与路径。
在深入研究过程中,研究团队发现,要实现这一目标需克服接触稀疏性、复合风险导致的探索回避,以及仿真到现实转移的难题三大挑战。为了应对这些挑战,该研究团队提出了一个专为具有顺序接触的全身人形机器人控制而设计的通用RL框架——WoCoCo(具有顺序接触的全身控制)框架。
据了解,该框架的核心原理在于,通过学习将复杂任务自然地分解为一系列单独的接触阶段,从而实现具有顺序接触的全身人形机器人控制。这种分解通过任务无关的奖励设计和从仿真到现实的转换设计,实现了将任务自然分解为单独的接触阶段,从而简化了策略学习流程,每个任务仅需指定一到两个与任务相关的项。
WoCoCo框架的亮点在于其独特的奖励机制。该机制结合了密集的接触奖励、阶段计数奖励和好奇心奖励,不仅更有效地指导策略学习,还驱动机器人探索更多阶段,促进了更好的探索行为。此外,WoCoCo还提出了一个带有域随机化和正则化奖励的通用仿真到现实流程,通过分阶段训练课程,减轻了训练中仿真到现实模块引入的探索负担。
基于以上创新设计,WoCoCo框架成功地在现实世界中验证了为四个人形机器人任务学习的RL策略。这四个任务包括多样化的跑酷跳跃、箱子搬运与操作、动态拍手与踏步舞蹈,以及悬崖边攀爬,均涉及复杂多样的接触序列。尤为值得一提的是,这是每个任务首次通过单个端到端RL策略得到解决,无疑标志着人形机器人控制技术的又一重大突破。
此外,研究团队还将WoCoCo框架应用于22自由度恐龙机器人的搬运与操作任务,进一步证明了其超越人形机器人的通用性。
那么,该研究团队提出的WoCoCo框架具体应用效果如何呢?接下来和机器人大讲堂一起来深入了解~
▍成功应对各类挑战性任务,展现WoCoCo框架广泛应用潜力!
凭借超凡适应性和灵活性,WoCoCo框架成功应对了一系列具有不同接触序列的挑战性任务。在多功能跑酷跳跃、箱子搬运-操作、动态拍手-踏步舞蹈、双向悬崖边攀爬以及恐龙搬运-操作等多个具有不同接触序列的挑战性任务中,WoCoCo框架均展现出了卓越的性能。同时,通过维持框架的核心组件不变,仅对任务奖励进行微调,研究团队也充分展示了WoCoCo框架在不同场景下的广泛应用潜力。具体来说:
跑酷跳跃作为人形机器人动态能力的试金石,对精确着陆和高度敏捷性提出了严苛要求。相较于传统方法受限于预设行为库或缺乏上身运动考虑,WoCoCo框架实现了基于端到端强化学习的多功能跑酷跳跃。这不仅涵盖了单脚/双脚接触的灵活切换、三维空间中的精确着陆,还包括了上身姿势的精准跟踪,且全程无需运动参考。实验结果显示,机器人能够连续跳跃并适应未见过的碎石等扰动,充分证明了其动态适应性和鲁棒性。
任务定义:
如上图所示,研究人员训练人形机器人跳过具有各种接触序列的石头,其中每块石头都会有一个接触阶段。接触目标是让正确的脚(左脚/右脚/双脚)接触石头,任务目标是保持指定的上身姿势(“拥抱”/“放松”)。此设置要求机器人在高度动态和耦合的运动过程中准确执行脚接触,同时调整其上身姿势。
奖励:
只有一个与任务相关的奖励项,鼓励跟踪基准框架中的肘部位置和方向以实现任务目标。
结果:
结果如上图所示,展示了人形机器人在跟踪上身姿势的同时执行多变的连续跳跃的能力,以及对看不见的砾石等干扰的鲁棒性。在现实世界中,由于设施限制,研究人员仅测试了一两次连续跳跃的双接触序列。然而,机器人对不同的石头高度和距离表现出高度动态和自适应的行为。
箱子搬运-操作是人形机器人应用的重要领域,但模型不匹配和地形扰动常对控制器构成挑战。WoCoCo框架通过端到端的强化学习策略,使机器人能够自主接近、搬运并放置箱子,无需任何姿势先验。这一过程中,机器人展现出的全身协调性和运动效率提升,进一步验证了框架在复杂任务中的出色表现。
任务定义:
研究人员定义了两个接触阶段。在第一阶段,接触目标是将手放在盒子的两侧,而任务目标始终得到实现。在第二阶段,接触目标是保持手与盒子两侧的接触,任务目标是将盒子运送到目的地附近。通过将接触目标修改为虚拟目标,也可以将盒子放置在目的地。通过仅在手上定义接触序列,研究人员利用RL实现稳健的运动,同时简化整个任务。
奖励:
有两个与任务相关的奖励条件,它们激励最小化手和盒子之间的距离以及盒子和目的地之间的距离。
结果:
如上图所示,人形机器人可以高效转弯,在行走和拾取之间无缝过渡,并在拾起箱子的同时接近目的地。踩到绑在身上的皮带后,它还可以恢复,展现出很强的稳健性。
动态舞蹈技能不仅是对人形机器人娱乐功能的拓展,更是对其精确控制能力的考验。WoCoCo框架成功实现了基于强化学习的动态舞蹈,包括准确的踏步和拍手动作。通过定义清晰的接触阶段和任务目标,机器人能够在舞蹈中展现出流畅的动作转换和精确的地面踏步,为人形机器人的娱乐应用增添了新的亮点。
任务定义:
在此任务中,接触阶段分配给脚和手。如上图所示,有三个动作组成不同的接触序列,其中“左”和“中”可以相互转换,“右”和“中”也可以相互转换。在每个接触阶段,任务目标是将手定位在黑色边界框内(在基础框架中预定义)。接触目标要求脚在相应的边界框中与地面接触(在世界框架中预定义),如果动作是“左”或“右”,则需要手自碰撞。
奖励:
有两个与任务相关的奖励,一个是鼓励伸展双臂,另一个是激励尽量缩小双脚与目标接触区域中心之间的距离。
结果:
成功地学习了具有实际部署的策略。
悬崖边攀爬任务要求人形机器人四肢进行精确运动以提供支持,是检验其极限环境适应能力的绝佳场景。WoCoCo框架通过强化学习,使机器人能够沿着悬崖边移动,并成功应对推力和未见过的碎石等挑战。在真实世界中,机器人甚至能够适应与人手互动期间手部接触力的变化,充分展示了其强大的适应性和鲁棒性。
任务定义:
在此任务中,跟踪接触序列以使人形机器人沿着悬崖边移动,如上图所示。在每个接触阶段,任务目标始终得到实现。接触目标要求双手接触墙壁上的目标区域,而双脚需要站在地面上的目标区域上。每个末端执行器的目标区域由2-d 正方形。
奖励:
有两个与任务相关的奖励条件。第一个鼓励人形机器人面朝墙壁,第二个通过最小化末端执行器与其目标接触区域中心之间的距离来激励末端执行器的精确移动。
结果:
学习到的悬崖攀爬行为如上图所示。该策略在模拟中对推力和看不见的砾石具有很强的鲁棒性。在现实世界中,悬崖被人类握住的木板取代,人形机器人可以适应交互过程中手上不同的接触力。
为了验证WoCoCo框架的通用性,研究团队将其应用于22自由度的恐龙机器人,训练机器人执行球搬运-操作任务。通过微调接触点和任务定义,机器人成功学会了使用其六个末端执行器之一将球推到指定位置。这一案例不仅证明了WoCoCo框架在非人形机器人上的应用潜力,也为未来更多类型的机器人控制提供了新的思路。
▍WoCoCo框架下的分析与消融实验
由于在面对多变且充满挑战的公园跑酷跳跃任务时,针对每项任务在相同条件下进行训练的成本过高,因此研究团队选择了这一具有代表性的任务作为研究对象,深入开展了分析与消融实验。
研究团队首先建立了实验基线,并可视化了人形机器人在无特定干预下的学习行为。这一步骤为后续的消融实验提供了对比基准。
而后,在消融密集接触奖励的实验中,研究团队采用了0-1接触奖励机制。结果发现,人形机器人在这种奖励机制下无法成功跳跃过石块,而是仅仅保持上半身姿势不动。这一发现有力地证明了研究团队的密集接触奖励对于激发机器人探索跳跃行为、实现任务目标的必要性。
后来,研究团队又消融了阶段计数奖励。实验结果显示,人形机器人在没有阶段计数奖励的情况下,会故意不完成接触目标,以避免进入更进一步的接触阶段,同时仍能获得其他奖励。这一发现充分验证了研究团队提出的阶段计数奖励在引导机器人逐步完成接触目标、推进任务进程中的有效性。
在好奇心奖励的消融实验中,研究团队发现,如果没有好奇心奖励,人形机器人同样无法跳跃过石块,且仅保持上半身姿势不动,表现出探索不足。而采用基于随机网络蒸馏(RND)的好奇心奖励时,虽然机器人学会了跳跃,但却以危险的方式向后倾斜。这与先前研究的观察结果一致,即代理可能会在存活的同时过度探索危险的行为模式。相比之下,研究团队的好奇心奖励机制则实现了有效探索,同时避免了过度拟合特定行为的风险。
实验结果证明,借助WoCoCo框架,人形机器人可展现出高度敏捷性和运动效率,这些运动不受简化模型和运动先验的约束。通过多样化任务配置的训练,所学的强化学习策略能够实现多变的接触目标,并展现出对未见过的扰动的鲁棒性。此外,尽管好奇心驱动的探索具有随机性,但研究团队的方法在随机网络初始化和探索方面表现出了良好的稳定性。
参考文章:
https://arxiv.org/html/2406.06005v1#S4
如需咨询企业合作事宜,欢迎联系堂博士(13810423387,手机与微信同号)进行对接。
----------------END----------------