25年1月来自Georgia Tech、USC、德国 Tech U Munich、Google DeepMind、AI2、Florida IHMC、Duke U、Stanford、法国 CNRS LIRMM、法国 CNRS 和日本 AIST 联合实验室、加拿大 Simon Fraser U、Texas Austin、Nvidia、CMU 和哈工大的论文“Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning”。
人形机器人具有执行各种人类水平技能的巨大潜力。这些技能包括运动、操纵和认知能力。本综述首先总结过去三十年来一直是人形机器人支柱的基于模型规划和控制。然后,探索基于学习方法,重点是强化学习和模仿学习,以增强运动技能的多功能性。研究将基础模型与人形机器人实例相结合的潜力,评估开发通用人形机器人的前景。此外,还涵盖全身触觉感知的新兴研究,该研究解锁涉及物理交互的新人形机器人技能。最后讨论挑战和未来趋势。
人形机器人
非常适合执行人类级别的任务,因为设计初衷是(理想情况下)复制人类的动作,以实现各种全身操作任务,例如从制造业到服务业的各种应用,如图所示:(a)HRP-4 在适应地形的同时擦拭木板 [1];(b-g) Digit、Hector [2]、Atlas、H1、Justin [3] 和 Apollo 拾取和放置物体;(h) iCub 推动手推车 [4];(i) Nadia 打开门 [5];(j-k) Figure 01 和 Optimus 操作物体;(l) MIT 人形机器人全身推拉恢复 [6]。它们的拟人化使它们在这些类人的任务方面从其他形式的机器人中脱颖而出。
人形机器人可以与人类互动以完成物理协作任务,例如协作将一张又重又大的桌子搬到楼上并获得人类的帮助。然而,在解决高度复杂的机器人动力学的同时,完成这些复杂的任务仍然具有挑战性,更不用说与人类进行安全的物理协作和/或在非结构化环境中进行操作。作为解决这一问题的一个有希望方向,人形机器人可以利用人类可用的和/或来自人类的大量数据来快速获得运动和认知技能。因此,利用人类知识实现人形化可能是实现具身智能的快速途径。
机器人领域的认知和自主能力,正在以前所未有的速度蓬勃发展。感知算法可以实时检测、分类和分割各种各样的目标。利用预测控制和反应控制的
基于模型方法
,实现了灵活可靠的运动和操控。同时,
深度学习策略
通过探索和模仿,在机器人硬件上展示令人信服的控制结果。
在海量互联网规模数据集上训练的大型
基础模型
,开始展现开放世界推理的能力。因此,为现实世界的应用构建自主人形机器人已成为可能,从而导致许多人形机器人公司和具体部署应用的出现。尤其是凭借强大的基于 GPU 并行化能力,NVIDIA 等公司和拥有物理人形机器人技术的公司(如波士顿动力、特斯拉和 Figure)开始在人形机器人的具身智能方面展开合作。
鉴于人形机器人技术的快速发展,本文回顾人形
机器人运动和操作 (HLM)
的最新发展。如图所示,人形机器人技术是一个多学科领域,涵盖设计、驱动、传感、控制、规划和决策等领域。主要从
基于模型的方法
和
基于学习的方法
角度研究任务规划、运动规划、策略学习和控制。每个主题都有广泛的研究,旨在突出每个主题内的代表性方法。对于每个部分,都提供论文以供进一步阅读。
基于模型的方法
是实现 HLM 功能的基石。这些方法主要依赖于物理模型,而物理模型会显著影响运动生成和控制的质量、速度和保证。在过去十年中,规划和控制技术已呈现出向预测-反应控制层次结构收敛的趋势,采用全身MPC 或简化模型(质心动力学)MPC 与局部任务空间的全身控制器 (WBC) 相结合 [7]。这些规划和控制技术通常被表述为最优控制问题 (OCP),由现成的或定制的数值求解器解决。尽管这些数值优化方法已经很成熟,但研究仍然侧重于提高其计算效率、数值稳定性、鲁棒性和高维系统的可扩展性。
基于学习的方法
见证人形机器人技术的快速发展,并取得令人瞩目的成果,吸引了越来越多的研究人员进入该领域。在各种学习方法中,
强化学习 (RL)
已证明其能够实现强大的运动技能。然而,尽管纯强化学习能够通过反复试验发现新行为,但没有演示数据的纯强化学习对于 HLM 任务来说通常效率极低,因为 HLM 任务的特点是机器人自由度高、奖励设置稀疏。因此,在模拟中训练强化学习并迁移到现实世界已成为一种普遍的方法,尽管它面临着弥合模拟与现实差距的挑战。
然而,从专家演示中进行
模仿学习 (IL)
已被证明是一种获得运动技能的有效方法。行为克隆 [8] 等 IL 技术已显示出模仿各种技能的惊人能力。为了通过 IL 追求多功能和可推广的策略,许多研究人员和公司都专注于扩展数据。虽然机器人经验数据可能多种多样且质量高,但获取这些数据既昂贵又耗时。因此,从人类数据中学习成为人形机器人的关键策略,这些数据丰富且易于从互联网视频和公共数据集中获得。向人类学习是人形机器人独有的独特优势。
然而,即使人形机器人可能达到人类水平的运动技能,但体现智能的更深层次问题仍然存在:如何学习人类行为背后的意图(来源),而不仅仅是复制观察的动作(结果)。据推测,理解人类意图是通过能够对环境和任务进行语义解释的
基础模型 (FM)
来实现的。
人形机器人
是指任何与人类形态相似的拟人机器人 [11]。通常,人形机器人拥有躯干、两只手臂和两条腿,但拟人化的程度可能有所不同。例如,有些人形机器人具有简单的手或带轮子的腿 [15]。拟人化的程度可以通过重量、肢体大小和所有关节自由度的差异(与人类的差异)来评估。
本综述主要关注模仿人类形态和功能的人形机器人,而不是那些紧密模仿人类视觉外观和外观的人形机器人。由于人形机器人的形态与人类相似,因此原则上可以利用从人类演示中收集的丰富数据。从这个意义上说,人类的技能可以更方便地转化为人形机器人。通过扩展数据和计算,人形机器人将能够掌握更多功能和泛化的技能。
从人机交互的角度来看,人形机器人会更受欢迎。这是因为它们的类人行为使它们在可用性方面更受信任,因为人形机器人会以人类用户预期和可预测的方式产生动作。这有助于心理安慰,也促进人与机器人之间的有效协作,特别是在近距离互动任务中。此外,人形机器人非常适合为人类设计的环境。
双足运动
:双足运动是人形机器人的显著特征。因此,在过去的三十年中,双足运动一直是人形机器人领域中一个多产的研究领域。总之,基于模型的双足运动已经取得长足的发展,从被动行走 [21、22] 发展到准静态行走 [23],再到动态行走 [19]。通过基于模型的方法的周期性运动,人们已经很好地探索和掌握在平坦表面上的双足行走 [19、24]。这些方法还扩展到更敏捷的运动,例如跳跃 [25、26] 和后空翻 [27]。
在外部扰动和力载荷下的双足运动已经得到广泛的研究。这些能力为同时进行运动和操纵奠定基础,而这正是本研究的重点。已经开发
基于模型的方法
,例如 [2, 28, 29, 30] 中的方法,以实现此类能力。例如,在 [29] 中引入一种具有任务空间动力学的基于被动控制器,其中外力被整合为描述机器人动力学的广义力的一部分。在 [2] 中,有效载荷被纳入简化的刚体模型中,以实现携带时的动态行走。在 [28] 中,任何外力都被纳入 线性倒立摆 (LIP) MPC 的一部分。
除了基于模型的方法外,双足运动也已通过
基于学习的方法
[31, 32, 33] 成功解决,特别是在平坦表面上的周期性运动中。此外,基于学习的方法还在更复杂的环境中展示其能力,例如跑步 [34]、跳跃 [35] 以及处理非周期性运动,如爬楼梯 [36] 和跑酷 [37]。与基于模型的方法的趋势类似,基于学习的方法进一步扩展其处理外力和有效载荷的能力 [38, 39]。
双足导航
:双足运动能力的提高自然而然地促进人形机器人有效导航复杂环境的能力,包括地形不平坦和动态障碍物的室内和室外区域。导航栈通常包含一个分层结构:
全局路径规划器和局部踏步规划器
。全局路径规划器 [40, 41, 42, 43, 44] 通常负责理解整体导航任务并生成避开障碍物并到达目标位置的路径。另一方面,局部踏步规划器(例如 [45, 46, 47])专注于确定遵循机器人周围环境中双足动力学的精确脚部位置,同时跟踪全局路径。
从上述导航栈来看,双足导航能力已经从平坦地形上的静态避障 [48] 发展到更具挑战性的场景,包括在高度受限的空间中移动 [43, 49]、在受限环境中避开动态障碍物 [50]、在动态社交环境中导航 [51] 以及穿越崎岖地形 [40, 41, 42, 52, 53, 54]。这些方法的一个持续挑战是,它们是针对特定用例场景量身定制的,缺乏处理各种不同情况的多功能性。
虽然双足运动和导航已经得到广泛研究,但由于固有的不确定性,现实世界的部署仍然是一项重大挑战。不确定性可能来自环境和机器人模型。现实世界的环境具有不平坦、多变的地形、动态障碍物和遮挡,很难确保双足导航的安全性和稳健性。
另一方面,模型不确定性源于机器人模型和物理系统的数学表示不一致。模型不确定性也存在于大多数当前导航框架中,这些框架在高级采用降阶模型来避免碰撞和实现目标,在低级采用全阶模型来跟踪高级命令。同时考虑导航任务和全身控制稳定性和准确性的耦合框架仍未得到充分探索。尽管先前的研究已经解决环境不确定性 [55] 和模型不确定性 [56] 的各个方面,但能够处理现实世界各种不确定性的综合导航栈仍然必不可少。
拟人化操控
是双手操控 [57]、运动操控和灵巧操控 [58] 的灵感来源。拟人化操控的终极形式是
全身操控
,指的是使用身体任何部位操控物体的能力。例如,人类为了方便起见,会用肘部或臀部撑开门;人类会用手掌或拳头代替指尖来施加较大的力;人类会弯曲小指来握住小物体,同时仍使用其他手指进行操控。
相比之下,大多数机器人通常具有预定义的末端执行器,例如脚底或指尖,这是唯一允许与世界进行物理交互的部位。全身操控是一个大问题,在双手操控、运动操控和灵巧操控方面都面临同样的挑战。这种普遍的能力尚未开发,但它的出现将标志着机器人操控的突破。
全身操控的概念最初是在
全-臂操控
社区中进行研究的 [59]。设计和制造全-臂机械手是为了探索利用机器人机械手的所有表面来操纵物体的好处 [60]。这带来了独特的挑战,它体现在感知、估计、规划和控制等所有系统层面。由于存在无限数量的此类接触,规划复杂性受到接触模式组合爆炸式增长的影响 [61],并且由于系统的高度自由度而导致计算成本呈指数级增长 [57]。
在解决全身操纵挑战的过程中,机械设计、控制和规划方面取得许多突破。在机械设计方面,用软材料和全身感应制成的机器人,如 Punyo [62],以内置方式提供全身操纵能力。
对于
控制
,协调性和接触丰富的性质需要有力且柔顺的控制。传统上,机器人手臂是硬编码的,以根据任务要求在不同的控制策略之间切换 [57]。不同的任务要求(例如到达某个点或擦桌子)需要不同的控制策略,例如纯位置控制或混合力位置控制。然而,目前仍不清楚如何定义和列举全身操控的控制策略。此外,能够接收传感器数据、执行状态估计并反应性地控制每次身体接触的通用控制框架尚未出现 [63]。这样的通用框架需要先进硬件和算法架构的创新,包括全身感知 [64] 和具有顺应性和力控制能力的机器人设计,以实现反应性操控 [65]。
从
规划
的角度来看,全身操控的挑战可以通过人类行为模仿算法来缓解 [66, 67, 68]。这些工作大多侧重于简单的操控策略,例如全身抓取和推动。为了使机器人能够模仿更复杂的人类全身操控行为,解决人类和人形机器人之间跨形态差距非常重要。
要实现人形机器人
全身操控
,所有系统级别的
全栈
系统集成至关重要。未来,期望看到全身传感、柔性材料和力透明机制设计方面的
硬件
进步。
算法
方面也需要显著改进。虽然经典的规划和控制方法存在巨大的复杂性问题,但纯学习方法缺乏对接触做出反应和适应不同任务的灵活性。解决方案将是一种综合方法,结合两者的优势。最终,这可能导致人形机器人具有更复杂、更像人类的能力,融合改进控制、自适应学习和全面的感知。此外,解决运动操纵的核心问题也将为全身操纵提供启示,因为这两个领域都涉及处理不同身体部位复杂、接触丰富的相互作用。
人形机器人的一个关键特征是它们能够同时执行运动和操纵(以下简称为
运动操纵(loco-manipulation
))任务。顾名思义,运动操纵既涉及通过操纵移动物体,也涉及通过运动移动机器人自身。在更一般的全身运动操纵中,全身是指使用所有身体表面与环境互动。下表总结运动操纵和全身操纵之间的关系。
全身操纵和运动操纵都强调利用身体接触的重要性。如图所示,运动操纵考虑机器人在操纵物体时自身的运动,而全身操纵强调利用所有可接触的机器人接触面,例如使用胸部作为额外支撑来移动大型物体。
四足机器人已广泛展示其运动操控能力,特别是那些通过使用肢体作为操控器实现移动操控能力的机器人 [71, 72, 73]。对于拥有上身操控器的四足机器人,基于模型的 [74, 75] 和基于学习的社区 [76, 77] 广泛采用
全身控制
来完成拾取和放置任务。
与四足机器人相比,人形机器人的
运动操控
尤其具有挑战性。人形机器人在地面上的支撑区域较小,重心较高,这对动态平衡来说是一个挑战。因此,早期的人形机器人框架侧重于对运动和操控的单独控制。例如,在移动任务中,大多数研究都限制上身保持直立,这将全身问题简化为仅考虑下肢的双足移动问题。
相反,在大多数桌面操作任务中,人形机器人的下半身保持静止 [78, 79]。在这种情况下,施加在上半身的任何外力都被视为对腿部的干扰,其目的仅仅是保持平衡。相反,在 [1] 中,没有这样的接触类:所有接触同时有助于完成任务和保持平衡。
人形机器人的
运动操控
需要整体性和战略性使用整个身体来探索人形机器人的全部行为能力空间。此外,全身运动操控需要安排所有肢体的接触,以同时实现稳健的运动和安全的物体交互。掌握这项技术可以解锁一系列有用的任务,例如开门 [80, 81]、推手推车 [82, 83]、滚动大线轴 [84] 或爬梯子 [85, 86]。
从规划和控制的角度来看,是否应该为人形机器人设计一个统一的框架,以同时实现敏捷的运动和灵巧的操纵,还是将它们作为分层框架中的独立问题处理?
统一的框架会产生连贯的全身运动,类似于人类移动和操纵物体的方式。统一的框架将允许同时优化运动和操纵,适应更广泛的任务,而无需在模式之间切换。
分层框架似乎是一种模块化解决方案,因为每个层都可以独立优化,因此整个框架可以轻松适应新任务或修改。主要缺点是各层之间缺乏相互意识。例如,如果运动层没有考虑操纵需求(例如,将机器人定位为最佳范围),则整体性能可能不是最优的。
人形机器人的运动和操控涉及与环境和物体的广泛物理交互,需要多模态感知来理解环境、跟踪操控物体,并评估接触如何影响机器人和物体的平衡。
视觉传感器
在物体跟踪和 SLAM [84] 中表现出色,而
本体感受传感器
通常结合使用来估计接触密集型任务中的接触信息 [80]。这些感知模态已在现有系统中得到广泛采用,并已在文献中得到全面综述 [12]。
一种较少探索但同样重要的感知模态是
触觉感知(tatile sensing)
。
触觉感知模仿人类的触觉,与本体感受传感器相比,它能在机器人大面积皮肤上提供更准确、更全面的接触信息 [87],并允许机器人通过物理交互感知复杂环境并评估物体属性,尤其是在视觉受阻的情况下 [88]。此外,触觉感知可用于估计基于接触的物体属性,如粗糙度、纹理和重量,补充传统的视觉信息,如位置、形状和颜色 [89]。触觉与其他感觉模态的结合,可以显著增强人形机器人在解决复杂操作任务时的感知能力。
许多研究已经开发出基于各种传导原理的触觉传感器,可以感知法向和切向力、振动、温度和接触前的接近度信息。各种传感器设计的比较研究可以在 [90, 91, 92] 中找到。本研究重点关注它们在人形机器人操作中的应用,分为三个领域:(i) 手部触觉感知,(ii) 脚底触觉感知,以及 (iii) 全身触觉感知。如图所示:
手部触觉感知
灵巧手上的触觉传感器提供接触信息,解决了物体操控中的挑战,例如抓取物体的可控性和物体属性估计。
为了实现抓取目标,感测到的接触力作为力或阻抗控制回路中的实时反馈,以调节所需的物体行为 [101]。此外,基于触觉传感器数据的滑动检测和预测可用于调整抓取力,从而增强抓取稳定性 [102、103、104]。
更复杂的手部操控任务,需要超越静态物体模型的交互式感知。动态接触信息,对于实现复杂的交互行为至关重要,包括实时跟踪物体状态、监测接触稳定性 [105] 和预测交互结果 [94],即接触力如何影响物体和机器人的平衡。然而,由于多接触动力学的固有复杂性和接触状态空间的维数增加,
基于模型的方法
仍然难以在多手指操作中达到人类水平的灵活性和多功能性。
另外,
无模型强化学习 (RL)
已显示出解决复杂接触交互的能力。这些方法将触觉测量直接集成到状态空间中以训练
端到端策略
[93, 106]。基于触觉的 RL 面临两个主要挑战:(i) 原始触觉传感器数据的高维输入空间和 (ii) 准确模拟接触物理以实现模拟-到-现实迁移的难度。为了应对这些挑战,人们探索诸如谱聚类、主成分分析 [107] 和自动编码器 [108] 等降维技术,而 [93] 则采用深度强化学习 (DRL) 来管理高维输入空间。此外,人们在开发触觉模拟器 [109, 110] 方面付出越来越多的努力,以提高模拟触觉数据的可访问性,并促进零样本模拟-到-真实的迁移[111]。
除了特定于任务的 RL,人们还在寻求其他学习方法来实现更通用的策略。[112] 采用
扩散策略
来实现复杂且长期的双手操作任务,而最近的研究已将触觉感知与视觉和语言一起集成到
基础模型
中 [113, 114]。尽管这些模型仅限于简单的控制任务,但最终可能会使人形机器人实现更自然、更灵活的物理交互。
为执行类人任务而开发具有触觉感知功能的机械手,需要满足双重需求:精细操作所需的
高灵活性
和举起重物的
高效载荷能力
。虽然人类的手自然地实现这种平衡,但大多数机械手优先考虑灵活性,但支持的有效载荷有限。短期内,针对特定任务定制的可更换模块化机器手是可行的,但长期目标应该是将两种功能结合起来的一个统一手。一种有前途的方法涉及
多模态传感模块
,针对不同力范围和分辨率而优化的传感器集成在一起。传感器设计、材料科学、传感器融合和高保真模拟方面的进步对这项工作至关重要。
脚底触觉感知
除了操控之外,触觉感知也开始在运动问题上获得关注。对于腿部运动,
地面反作用力 (GRF)
和地形特性估计,对于在各种不平坦的表面上保持全身稳定性至关重要。虽然视觉和本体感觉传感器可以间接估计地形,但这些传感模块缺乏准确估计 GRF 和各种地形特性的能力。
脚底的触觉感知
有可能提供直接、畅通和准确的接触测量,但仍在很大程度上尚未得到充分探索。
为了测量 GRF,现有的研究使用安装在脚踝上的力/扭矩传感器 [115, 116] 或加载-单元传感器进行逐点测量 [117]。然而,这种方法只能提供零力矩点,缺乏关于接触面位置、力分布和详细地形特性的准确信息。为了获取此类信息,
接触传感阵列
[118] 和
多模态传感套件
[97, 119, 120] 已被集成到带腿的机器人系统中,以获取各种接触信息。
迄今为止,带腿系统的触觉传感器主要应用于单足机器人、四足机器人和六足机器人,具有分类地形 [121, 122, 123]、检测接触力和土壤流 [124]、检测接触角 [125] 和类型(例如,表面、边缘或无接触)[126, 127] 以及估计 3D 压力分布 [123] 等功能。
由于少量的腿、较大的机器人重量,间歇性地面接触期间的冲量和剪切力较大,因此为人形机器人足部构建
触觉传感器
更具挑战性。另一个挑战在于开发能够承受各种地形的坚固可靠传感器,促使研究人员寻求耐用的材料和可靠的机械设计。此外,人形机器人对系统集成的要求更为严格。例如,成人大小人形机器人的计算和电源单元可能距离脚更远。
很少有研究为人形机器人制造触觉传感器。这些传感器主要用于地形分类 [97, 128] 和地面坡度识别 [118] 等应用。感知到的触觉信息应有助于控制人形机器人的动力学并提高运动性能。该方向的一项值得注意的工作 [96] 重建立足点的压力形状,从而能够识别不平坦的地形并实时重规划脚步。
为了在野外实现稳健的人形机器人运动,脚部触觉感知的未来方向需要解决以下挑战:(i)如何准确估计更多地形特性,如刚度(stiffness)、阻尼(damping)、塑性(plasticity)、异质性(heterogeneity)和孔隙度(porosity); (ii) 衡量地形复杂程度的适当指标是什么,例如密度、高度、光滑度和粗糙度(例如地形中岩石的大小和波长),以及天气和光照条件(例如下雨、下雪、晴天、夜晚)引起的影响;以及 (iii) 如何将地形触觉感知与其他传统感知模块(如本体感觉和视觉感知)融合,共同告知为智能和地形-觉察运动的姿势、速度和步态。
全身触觉感知
全身触觉感知将上述单体感知扩展到身体的所有部位,使人形机器人不仅能够通过指尖或脚底与未知环境互动,还可以通过手臂、腿和躯干与未知环境互动。
借助明确的触觉反馈,人形机器人(如 iCub 和 REEM-C)实现了全身顺应性(compliance) [99, 129],可从全身区域控制接触力。这种程度的接触意识有助于实现安全、直观的人机物理交互,包括与人共舞 [100]。接触意识还有助于在非结构化环境中改善平衡和避免碰撞。
大面积触觉感知显著增强机器人处理大型物体的能力,包括通过触觉探索和全身操控进行物体识别。例如,[130] 使整个上身覆盖人造皮肤的人形机器人 NAO 能够对具有不同重量和质地的大型重物体进行分类。 [88] 通过在杂乱空间中接触物体并调节手臂上的接触力来展示全臂触觉感知。[131] 实现近距离全身电容式感应,使协作机器人能够感知工人的近距离存在。[132] 使用同样的技术来绘制人机物理交互中的语义。[134] 摆脱优先考虑避撞轨迹的传统方法 [133],利用触觉反馈来检测和清除可移动障碍物,从而解决可移动物体之间的导航问题。此外,人形机器人 HRP-2 和 Punyo-1 的手臂和胸部布满触觉传感器,可以用整个上半身抓取和举起大而重的箱子 [135, 136] 或各种家居用品 [62]。
然而,目前基于触觉的全身操作研究,仍然局限于用上半身进行抓取或简单的取放动作。这是因为全身操控面临着巨大的挑战,包括理解多个接触的复杂接触动力学、处理传感器数据的高维度以及解决模拟与现实之间的差距。
尽管触觉传感器提供巨大的潜力,但具有更多动态交互和接触漂移的类人运动操控,例如将重量转移到一只手臂以释放另一只手臂以完成开门等任务,需要对感知、规划和控制中的所有系统级别进行复杂的集成。触觉感知的一个主要挑战,以及与规划和控制紧密集成的一个障碍,是难以
动态地推理接触
。这不仅涉及估计接触点和静态目标模型,而且更重要的是,了解这些接触和接触变化如何实时影响系统,包括机器人和物体的平衡。这些信息对于规划器做出明智的决策至关重要,并且在学习框架中可以提高样本效率。
触觉感知是一种尚未得到充分探索的推进类人机器人操作方式,可为涉及与环境和物体的复杂交互的任务提供必要的直接接触信息。虽然触觉感知显著增强类人机器人的任务,但要达到人类水平的灵活性和多功能性仍然具有挑战性,需要进一步研究动态感知和多模态感知集成,以便在交互过程中实现系统的实时决策。这包括:根据物体的大小和重量等属性去优化全身接触调度,并了解接触动力学如何影响在同时操作时机器人和物体的平衡。此外,全身触觉系统的设计,应考虑不同的传感器分辨率和负载要求,即手需要更高的分辨率才能完成精细任务,而身体皮肤可以以较低的分辨率运行,但可以承受更高的有效载荷。
多-接触规划,仍然是机器人技术中最具挑战性的任务之一。具体而言,在人形机器人全身操控的背景下,规划器应该解决处理与环境或物体的丰富交互轨迹。具体来说,除了机器人状态轨迹之外,规划器还需要确定操控任务中的
接触位置(或接触地点)、接触模式和接触力
。鉴于人形机器人的欠驱动特性以及操控交互动力学的增加,保持平衡和操控物体,完全依赖于这些接触交互,这已经使多-接触规划成为一个具有挑战性的问题。此外,环境和物体的多种物理特性(例如,刚性或柔软、固定或可移动)使问题更加复杂。
在过去十年中,该领域在多-接触人形机器人规划方面取得丰硕成果,在各种运动和操控任务中展现出巨大的潜力 [3, 138, 139, 140]。然而,这些工作需要在规划机器人全身运动轨迹之前预先规划好接触模式序列 [141],这留下了一个悬而未决的问题:
如何以统一的方式同时解决运动和操纵接触规划问题以及全身轨迹规划,即接触-隐式规划 (CIP) [142, 143]
。这种 CIP 的主要挑战在于其计算负担高,以及识别潜在接触模式序列的组合复杂性。因此,选择合适的方法取决于具体问题的要求,包括求解时间、解的数值稳健性、解的分辨率以及对数值模型的依赖性等因素。
为了高自由度欠驱动系统选择合适的多-接触规划算法,最先进的方法主要分为三类:(i) 搜索、(ii) 优化和 (iii) 学习,如图所示。
基于搜索的方法
采用状态扩展,允许探索建立和断开接触的配置;在每个搜索步骤中通常都会检查碰撞和运动可行性。启发式方法可以应用于基于搜索的方法中,以实现高效的探索。搜索结果是确保稳定性和任务效率的最佳接触模式序列。可以在搜索期间优化全身运动,以验证候选接触序列的动态可行性 [144],也可以在搜索之后以
接触-前-运动
的方式进行优化 [145]。基于搜索的方法通常用于腿式机器人运动的步态规划 [146,147,148,149]。为了扩展它们在更复杂的多-接触操作规划能力,[150] 实现一种用于人形机器人抓握接触的规划和重规划图搜索方法。[151] 引入用于多-接触行为的接触-前-运动规划器。
基于搜索的接触规划,主要检查运动学可行性以进行扩展,并且通常需要额外的低级规划来生成动态可行的运动,而
基于优化的接触规划
[142] 则提供同时规划全身运动和接触相互作用的可能性,如图所示。这种方法将动力学直接集成到接触规划过程中,无需分层结构。通过将接触动力学纳入轨迹优化公式,可以形成
接触-隐式轨迹优化 (CITO)
,使求解器能够同时确定接触模式、接触力、接触位置和全身运动 [159, 160, 161]。
除了基于搜索和基于优化的方法外,
基于学习的方法
在多-接触任务规划中也表现出巨大的潜力,例如使用强化学习来规划速度命令和接触序列 [175, 176]。这些基于学习的规划器大多是模块化的,因此可以在低层形成基于模型的规划器和控制器的分层架构。与传统的基于优化或基于启发式的方法相比,基于学习的元素提高多-接触规划的计算效率。例如,[177] 学习质心动力学演化的预测,以便在 0.1 秒内高效地生成接触序列,与传统的基于优化的方法相比,计算速度提高 300 倍。
虽然在人形机器人多-接触规划方面取得重大进展,但未来的工作应侧重于开发更具集成性的方法,将基于搜索、基于优化和基于学习的方法的优势结合起来。具体而言,解决 CIP 的计算复杂性和提高实时性能将是关键。未来的方向可以探索结合高效接触序列生成/接触动力学的混合方法,实时应用接触-隐式约束,并实现基于学习的接触预测,以增强复杂操作任务的鲁棒性和适应性。
基于优化的 MPC 在机器人技术领域取得长足进步。MPC 具有灵活定义多种运动目标、严谨的数学公式和广泛可用的求解器等优势,是运动和操控轨迹规划最流行的方法之一。
操控规划问题的统一优化公式旨在寻求未来有限时间内的最佳状态轨迹和控制输入。MPC 通常被表述为最优控制问题 (OCP)。
根据动力学模型、成本和约束的选择,OCP 公式通常转换为线性凸 MPC(例如 [2, 181])或
非线性 MPC (NMPC)
(例如 [182, 183])。
如图所示:该图还强调针对运动操纵任务与环境和/或物体进行交互式动力学建模的考虑。此外,还总结四种加速/简化 NMPC 的常用方法。
下表总结最近基于 MPC 的人形机器人在
运动-操控
任务中的研究。
简化模型
为了实现高频在线规划和轻量级计算以进行运动控制,MPC 中通常采用简化动力学模型或
降阶模型 (ROM)
。例如,可以通过提供显式脚部位置序列参考将
单刚体模型 (SRBM)
线性化,并在线性凸 MPC 中公式化 [184]。使用 SRBM,[181] 在 MIT 人形机器人上实现动态特技行为。扩展到人形机器人操作,[2] 将交互动力学简化为施加到机器人质心(CoM)上的外部重力,实现物体携带和崎岖地形运动。
另一方面,
线性倒立摆模型(LIPM)
已成为人形运动[23]和多-接触[191]的线性化动力学模型流行选择。为了进一步扩展崎岖地形行走的能力,
棱形倒立摆模型(PIPM)
用于实现非平坦表面上的 CoM 运动[192,193]。通过遥操作将 LIPM 扩展到操控任务[187]。然而,这种模型本质上缺乏处理接触相互作用和操控动力学的能力,需要较低级别的全身控制来完成平衡和操控任务。
全身模型
虽然简化的动力学模型提供计算效率,但它们往往缺乏模型精度,并且由于高度简化的假设,全身运动规划能力有限。相反,全身模型可以更准确地表示机器人动力学,更适合规划多种运动以及与物体和环境的交互。当约束或成本函数变为非线性时,NMPC 就会发挥作用,例如由运动动力学和
全身动力学 (WBD)
形成的动力学约束。
在人形运动规划的背景下,运动动力学约束通常被称为
质心动力学 (CD)
和
全身运动学 (WBK)
约束的组合 [188],其中 CD 来自系统的总动量,并捕捉多连杆动力学系统的全身惯性效应 [194]。例如,在一个
轨迹优化 (TO)
中实现 CD 和全身运动学之间的共识可生成多种类人运动 [188]。
另一方面,在 MPC 中利用 WBD 已成为一种流行方法。关节空间的 WBD 可以准确地模拟自由浮动的关节机器人,例如人形机器人。WBD 可以灵活地定义动力学建模中的任意、允许的接触,包括通过操纵产生的相互作用力。然而,固有的高非线性和非凸性,给基于 WBD 的非线性规划 (NLP) 带来巨大的计算负担,使其对于实时规划具有挑战性。
即使使用 NLP 的加速求解方法,例如,顺序二次规划 (SQP)、微分动态规划 (DDP),解的数值精度也常常会受到影响以换取实时应用(例如,[6])。这种计算问题,在执行人-机有效载荷运输等运动操控任务的高自由度人形机器人中尤为突出,这些任务需要对物体动力学、安全-紧要控制和稳健轨迹解决方案进行额外的建模。
混合-保真模型
与 MPC 在整个视界中使用完整的关节空间动力学相比,混合使用不同抽象级别的多个模型可以提高性能和效率。
作为混合模型的一种方式,级联-保真模型(又称分层动力学)使用不同的模型来控制视界的不同部分 [195、196、197]。这些方法通常在近视界采用高保真度(例如全阶)模型,在远视界采用低保真度(例如简单)模型,从而在近视界保持解决方案的准确性,同时通过使用简单模型允许更长的视界来解决近视问题。这种方法可能适用于运动操纵任务,因为它可以将交互动力学简化为简单的外力,或者将物体动力学作为远视界 CD 的一部分,从而与完整动力学模型相比,可以提高实时计算能力。
混合模型的另一种方法,是让不同的动力学模型在它们的视界之间重叠。在这种情况下,必须在这些重叠模型之间达成共识。为了解决这种混合保真度模型的问题,[198] 将一个包含两种动态的单个轨迹优化(TO)分解为两个子问题,然后在两者之间交替以达成共识。类似地,[199] 在质心动力学 (CD) 和 WBK 子问题之间交替。总体而言,在 MPC 范围内简化模型仍将是一种有效的方法 [7]。另一方面,混合-保真度模型表现出卓越的能力,但需要仔细考虑组合模型。
NMPC 加速
通过结构开发提高 NMPC 速度
:NMPC 问题通常涉及复杂的动态和约束,解决这些问题需要大量计算。利用这些问题中的结构可以显著提高其可解性和效率,例如提取直接相互作用的变量、识别重复和对称结构以及排列块-对角结构。解决 NMPC 的最常见方法之一是直接方法,它将 NMPC 转换为复杂度为 O(N^3) 的非线性规划 (NLP),其中 N 是问题规模 [200]。一些直接方法,例如直接多重射击和直接共置,可产生稀疏 NLP,其计算复杂度可降低至 O(N) [201]。解决 NMPC 的另一种方法是单次求解方法,例如 DDP [202] 及其变型:迭代线性二次调节器 (iLQR) [203],该方法仅保留动态的一阶导数近似,并表现出计算量在视界内的线性增加 [204]。通过超图(hypergraph)方法适当利用稀疏结构,[205] 显示出非线性求解器计算效率的提高。最近,数值稳健求解器 FATROP [206] 通过采用结构开发的线性求解器,以直接多次求解的方式有效地解决约束 OCP 问题。在 NMPC 问题中,FATROP 实现与 ACADOS SQP 求解器相当的求解时间,同时保持与基于内点法 IPOPT 求解器相似的数值稳健性。此外,AdaptiveNLP 利用以前的 NLP 结构显着减少构建当前 NLP 的开销和更新时间 [207]。由于人形机器人上大多数不等式约束(如关节状态、驱动和控制屏障功能)的静态性质,使用这种具有记忆意识和自适应性的求解器提供一组较小的不等式约束有可能加速人形机器人的 NMPC。作为一种越来越流行的方法,结构开发具有巨大的潜力,因为解决方案的数值鲁棒性权衡最小。
通过线性化加速 NMPC
:解决 NMPC 带来的计算负担的另一种方法是连续线性化,它涉及围绕标称系统状态和控制输入在每个时间步进行线性化。线性化的动力学变成分段仿射,可以在大型稀疏
二次规划 (QP)
中表述,并且可以在线求解 [208, 209]。为实现高效的基于优化规划,GPU 加速的 QP 求解器 ReLU-QP [210] 将人形机器人平衡任务中的 MPC 实时控制频率从原来的 65 Hz 提高到 1300 Hz 以上。然而,与使用精确的非线性模型相比,逐次线性化会牺牲模型保真度,不可避免地会导致运动误差。在实践中,用模型精度换取速度往往是一种首选策略,因为控制器可能无法高精度地跟踪精确的全阶轨迹,因此追求由全阶非线性模型生成的精确轨迹在实践中没有好处。
通过热启动加速 NMPC
:实时要求促使许多研究人员寻求更好的初始化方法。一种简单而有效的方法是使用上一次迭代的解决方案进行热启动。虽然这种方法有望减轻计算负担,但它高度依赖于先前解决方案的质量,并且对时间步骤中的动态或任务约束的变化很敏感,这对于接触丰富的多任务运动操纵很常见。另一种常见方法是将计算负担从在线转移到离线,例如步态库 [211]。它可以看作是一种特定类型的热启动技术,只需要在步态之间进行廉价的在线插值,即可获得近似最优的全身轨迹。类似地,[190] 使用
运动记忆
来热启动 MPC 并克服初始条件的敏感性。从记忆中进行适当的初始化,通常只需要几次迭代即可实现收敛,从而实现具有全身动态的在线 NMPC。将离线记忆与在线规划相结合,是一个很有前途的研究方向。然而,关键的挑战在于在有限的存储空间内管理大量轨迹。
通过采样提高 NMPC 速度
:基于实时采样的规划(例如模型预测路径积分 (MPPI) 控制 [212])是一种简单有效的方案。然而,将 MPPI 扩展到高维运动操纵任务会带来巨大的计算挑战,尤其是在接触-隐式设置中。两种主要技术促成 MPPI 最近的成功:减少搜索空间和利用现代模拟器中的并行化。为了限制搜索空间,研究人员使用次优规划器来指导搜索、应用约束并使用样条控制点来减少规划结点的数量 [213]。此外,采样速度的提高也促进实时规划。例如,MuJuCo MPC (MJPC) [214] 利用 MuJuCo [215] 在多核 CPU 上已建立的并行化功能。此外,Issac Lab [216] 和 MuJuCo 等现代模拟器可以在 GPU 上推出数千个样本,从而允许额外的随机化以实现稳健控制 [217]。
运动-操控的环境和目标交互模型
假设接触模式序列是通过接触规划方法定义的,操纵 MPC 算法会找到一条可行的轨迹,该轨迹会在满足动态约束和接触稳定性约束的同时,导致视界内的可行状态。现有的操纵 MPC 算法区分在于与固定环境和操纵物体的交互。
1)
与静态环境的交互
:环境包括地面和墙壁等静态表面,可提供有助于机器人稳定性的接触力,并实现行走和推动等交互任务。静态环境的示例如图 (a) 和 (b) 所示。由于环境是静态的,因此机器人在规划期间无需考虑环境的状态或稳定性。相反,机器人通常需要在给定特定环境几何的情况下处理非循环接触模式和非共面接触。这个具有挑战性的问题称为
多接触规划 (MCP)
[86, 141, 220]。MCP 是一个广泛研究的领域,涉及接触规划和运动规划。
人形机器人的多-接触 MPC 可以通过基于优化的方法解决 [188, 189]。在这些方法中,
质心动力学 (CD)
是最常见的模型,因为它可以准确表示接触力和系统的质心动量。尽管模型非常准确,但 CD 包含一个由状态(CoM 位置)和控制(接触扳手)之间的交叉积所衍生的非线性项,这对轨迹优化提出挑战。使用多-接触 MPC 作为运动规划技术也限制动态运动能力,因为它将手臂和腿统一视为一般接触,与纯运动模型(如线性倒立摆模型 (LIPM))相比,它在处理频繁接触切换时效率较低。尽管 MPC 能够规划与机器人任何表面的接触,但规划的接触力规则化通常需要精确的关节扭矩感应或全身触觉感应,这仍然有很大的探索空间,并为丰富和安全的环境交互提供巨大的潜力。
2)
与被操纵物体的交互建模
:在人形机器人的操纵 MPC 背景下,与接触规划一起,被操纵物体的建模策略是一个关键方面和正在进行的研究领域。物体可以是自由浮动的物体(例如盒子)、固定底座的铰接机构(例如门或抽屉)或驱动关节(例如另一个机器人)[221],如上图 (c-g) 所示。与静态环境的相互作用不同,物体施加的接触力不仅取决于机器人的关节扭矩,还取决于物体的质量和惯性。因此,在运动操控任务中,与物体的交互会带来很大的复杂性。规划此类任务通常需要准确了解物体的状态和物理属性,尤其是在处理沉重、不规则或动态移动的物体时。
为了克服物体状态和属性未知的挑战,已经提出自适应控制方案和在线估计技术来提高鲁棒性,补偿动态效应和变化的外部负载。例如,[222] 将物体的动态效应补偿为残余动态,从而避免对大量预定义物体参数的需要。 [223] 在线估计机器人的反射惯性,以补偿不断变化的外部负载。 [224] 估计物体的质量,为大物体选择最佳的全身操控策略。此外,为了解决物体状态反馈问题,提出广角摄像机密集跟踪来辅助跟踪大型物体 [84]。然而,应用于基于 MPC 方法在预测物体动力学的补偿、预测物体运动演化以及由于此类积分而增加的在线计算负载密度方面带来了额外的挑战。 [225] 通过监督学习迈出估计和简化质心动量演变的第一步,以在人形运动中保持基于凸 CD 的 MPC 公式。
鉴于任务的多样性,为机器人-物体系统创建统一的模型至关重要。有两种将物体动力学纳入基于 MPC 规划过程的常用方法 [191]。
第一种方法将被操纵的物体建模为外部扳手,并规划控制输入以对其进行补偿 [2, 70, 189]。这种方法提供一种灵活的解决方案,因为它可以很好地与 MPC 集成,而不管 MPC 模型的线性如何,该模型将所有接触视为外部扳手。
第二种规划方法将物体的动力学直接纳入机器人的动态运动方程,从而创建统一的机器人-物体动力学系统 [158, 191]。该方法消除了第一种方法中的静态/准静态假设,并利用 MPC 中随时间变化的机器人-物体动力学来实现更动态、更具自适应性的操控行为。
3)
与动态环境或可变形体的交互
:动态变化的环境,例如具有移动表面的环境 [226, 227] 或具有物理人机交互的环境 [28],给操控规划和控制带来额外的挑战。与动态物体操纵问题类似,机器人与动态环境之间的交互模型也是随时间变化的。虽然可以将物体的动力学与机器人模型融合以形成统一的动力学,但在大多数情况下,用数字方式对环境动力学进行建模是不切实际的。因此,在 MPC 设置中,规划器可能需要传感器反馈来预测环境的运动并自适应地重规划运动操纵的运动 [226, 228]。例如,与涉及人类的环境交互需要预测人类的意图以进行协作操纵,例如提升有效载荷 [28];参见最近在人机直接物理交互方面取得的更具挑战性的成就 [229]。对于此类任务,相互作用力是传达意图的重要方式,可以将其测量为力反馈信号以触发机器人运动。然而,在当前时间步长之外,无法很好地预测这种感知力的演变以供 MPC 利用,这表明需要进一步的静态/准静态假设。否则,机器人只能将动态环境视为干扰,并通过反应控制(例如全身控制)来抵消它。鉴于应对不断变化的环境挑战,动态环境中的运动操控在很大程度上尚未得到探索。
除了具有规则几何形状的刚体外,可变形体在现实世界中无处不在,例如护理或家政场景中的物体。对这些物体的动力学进行建模需要深入了解它们的物理特性和行为,如柔韧性、弹性和受力变形。因此,通常需要针对具体问题和应用进行简化 [230, 231]。例如,为了规划可变形传送带的操控 [232],需要通过仅在二维平面上表示传送带尾部的运动来简化传送带的运动。然而,为了充分利用物体的变形特性进行有效的运动操控,将精确的可变形体 [233] 集成到机器人模型中至关重要。虽然对于人形机器人运动操控来说,这一领域的探索相对较少,但这种集成为基本的拾取和放置操作之外的其他操作开辟重要的机会,使机器人能够处理更复杂、更精细的任务。
总结一下。
凭借基于梯度的数值优化在运动规划中的先进功能,MPC 在人形机器人的操控中越来越受欢迎,并在近年来的文献中展示了众多变化。这种方法的本质在于对动力学模型、约束、任务定义和计算要求做出合理的选择。这些选择通常需要专家设计和调整,以在任务多功能性、解决方案可行性和最优性之间进行权衡。
通过确定操控任务的计算强度和适当的动力学表示,可以通过在 MPC 中引入简化模型和放宽约束来抵消计算负荷。此外,适当的求解器选择可以大大提高 MPC 的效率,这是一个不断发展的领域,为求解器级别和问题公式级别的创新研究提供机会。
此外,由于与环境和物体的动态交互的复杂性,操作任务带来进一步的挑战,这留下如何根据 MPC 设置中的特定任务要求有效地选择和制定交互动力学的问题。
全身控制 (WBC)
代表一组控制器,它们产生关节扭矩、约束力和广义加速度,以实现一组给定的期望动态任务 [11]。三种常见情况需要一个计算效率高的全身控制器,它可以跟踪期望轨迹并向物理机器人发送扭矩命令。(i)期望轨迹是基于降阶模型计算的。这样的轨迹只编码机器人全身运动的一个重要子集(例如,操作空间中的期望 CoM 和末端执行器轨迹 [234]),不包含所有关节的信息。(ii)轨迹是用全阶模型规划的,但计算量太大 [211],无法实时使用,特别是对于运动操纵场景中的人形机器人。(iii)环境不确定性和规划不准确性会引起干扰,需要鲁棒的 WBC 来补偿 [235]。因此,WBC 在人形机器人界得到广泛的应用。
WBC 解决瞬时控制问题(即仅针对当前时间步)。具有浮动基座的人形机器人,系统是欠驱动的;它需要与环境进行物理接触才能保持平衡并实现移动和操纵任务。
WBC 动态任务
动态任务向量可以表示为关于决策变量的线性方程。WBC 的主要思想,是该线性方程足以普遍地描述多种运动和操作任务。
尽管适当的 WBC 任务集取决于从机器人形态到可用硬件传感等诸多因素,但本文重点是一些常见的运动操作任务。
MPC 通常用于为 WBC 提供操作空间中的动态任务。例如,基于 SRBM 的 MPC [234, 240] 将质心轨迹和末端执行器轨迹作为操作空间中的动态任务输出。这些操作空间任务也可以转换为关节加速度,从而成为关节空间任务。例如,全身逆运动学 [241] 是这种转换的常用方法。此外,黎曼运动策略 [239] 和运动动力学结构 [219] 可以从原始运动层次结构中构建不同的关节加速度。
遥操作提供一种交互式方式来生成动态任务,例如机器人的姿势、行走方向和抓取目标 [242]。WBC 的设定点,通常映射到可视化界面,使操作员能够动态修改控制器设定点。这种映射可能是直接的 [243],也可能是重定位的,以解释机器人的形态 [244] 或确保指令运动的可行性 [156, 245]。虚拟现实 (VR) 界面支持将手持控制器在空间上映射到 WBC 姿势。这种方法已经应用于各种运动操控场景,包括门口穿过、物体抓取和推动任务 [246, 247]。触觉反馈可以通过各种方式告知操作员 WBC 状态,如指示 CoM 稳定性裕度的力反馈 [248] 和指示操控过程中接触的振动手套 [116]。映射到动态 WBC 的设定点(如捕捉点)也已得到证实,并且可以解释操作员和机器人自然步行频率的变化 [249, 250]。如图所示,为了实现所需的动态任务列表,WBC 方法可以根据封闭形式或基于优化的方法进行分类。
闭式 WBC
逆动力学控制器是解决闭式 WBC 问题的早期研究之一。具体来说,它解决一个动态任务,实现所需的广义加速度。
如果可以测量所有约束力,则可以求解闭式扭矩。然而,由于缺乏传感和估计能力,约束力通常无法实现。为了从解析角度推导扭矩,有几种方法 [251, 252, 253] 将系统动力学 (5) 投影到无约束流形中。
除了跟踪广义加速度的任务之外,考虑到人形机器人自由度的冗余,还可以实现一组操作空间任务和约束。作为一个多任务示例,人形机器人通常被要求以低优先级产生相互作用力,同时以高优先级保持全身平衡。
操作空间控制 (OSC)
,又称任务空间控制,通过按层次结构对任务进行优先级排序来实现多个动态任务 [251, 254]。低优先级任务在高优先级任务的零空间内求解,从而确保任务之间严格保持层次结构。这样的任务层次结构也称为任务栈 [255]。
总体而言,闭式方法计算效率高,并且易于实现。然而,它们很难融入不等式任务,例如关节限制和避障。虽然这个问题可以在闭式方法中解决,比如使用平滑算子 [255],但社区中许多人使用基于优化的方法来有效地解决这个问题。
通过优化实现 WBC
与闭式方法相比,已有多种研究将 WBC 表述为优化问题。这些基于优化的方法增强 WBC 的灵活性,实现动态任务 [256, 257](包括不等式任务)的模块化添加和删除。
基于优化的 WBC 的一个显著特点,是通过两种优先级方案解决冲突的动态任务:严格的任务层次结构 [258] 或软任务加权 [117, 237, 238, 259]。由于动力学方程 和动力学任务都具有线性特性,基于优化的 WBC 通常被表述为二次规划 (QP),可以有效地求解全局最优解,并且具有广泛的求解器选择范围。
通过级联分层 QP 可以确保严格的任务层次结构。该方法按顺序求解一系列 QP 子问题,任务优先级从高到低;优先级较低的 QP 在所有前面 QP 的组合零空间内产生解 [258]。QP 的顺序求解,要么在成功求解所有子问题时终止,要么在遇到不可行子问题时终止,从而跳过所有剩余的低优先级任务 [260]。分层 QP 本质上等同于闭式任务栈方法,其优点是可以更自然地纳入不等式约束。然而,求解多个 QP 子问题会带来巨大的计算和内存负担。此外,分层 QP 继承
操作空间控制(OSC)
的一个常见问题:任务雅可比矩阵在接近奇点时会变得秩不足,从而导致大的不稳定运动 [261]。相比之下,加权 QP 通过将动态任务仲裁为成本函数中的软约束来解决这些问题,并使用权重来表示它们的相对优先级。因此,加权 QP 可视为只有一层的分层 QP 特例,反之亦然,如 [262] 所述。这种设置的好处是只需解决单个优化问题,比分层 QP 更快,并且可以通过利用稀疏性和热启动进一步加速。然而,对于大量任务而言,调整权重参数可能很麻烦,并且可能导致不稳定 [263]。即使参数调优良好,失去严格的任务优先级也意味着低优先级任务可能会干扰高优先级任务。尽管如此,与分层 QP 相比,加权 QP 具有设置简单、计算效率高等特点,因此仍广泛应用于许多机器人研究中。例如,许多加权 QP 方法都是在 DARPA 机器人挑战赛期间设计的 [117, 237, 238, 264]。
用于运动操纵的 WBC
用于运动操纵的 WBC 旨在实现所需的运动,同时保持瞬时平衡和接触稳定性。给定所需的运动和接触序列,运动操纵控制可分为两类。 (i) 当与环境和物体的所有交互都是静态或准静态时,可以将它们建模为
外部扳手
。在这种情况下,WBC 将机器人平衡问题与外部扳手作为动态任务来解决。 (ii) 当被操纵的物体具有相当大的质量或动态移动时,例如携带一个沉重的箱子,该物体将成为
机器人-物体系统
的一个组成部分。因此,WBC 必须考虑机器人和动态物体的平衡。
1)
交互作为外部扳手
:在第一类中,一组接触负责与环境或物体交互以施加所需的扳手。该所需的扳手可以由用户指定,也可以从估计的物体重量中得出。考虑到交互所需的扳手,其余接触使用三种不同的策略维持系统平衡。
第一种策略涉及使用机器人的
全身动力学
同时优化接触扳手、关节加速度和关节扭矩。在这种方法中,交互所需的扳手是 WBC 内的动态任务。WBC 还必须满足动力学约束、接触稳定性约束和平衡稳定性约束。接触稳定性约束强制合成的接触扳手位于
接触扳手锥 (CWC)
[265] 内,保持牢固稳定的接触。平衡稳定性约束设计所需的质心动量率,通常基于 CoM 位置和身体方向的反馈 [194]。当存在状态偏差时,平衡稳定性会导致接触扳手重新分配或质心状态移动以抵消和恢复稳定性 [82]。
第二种策略称为
预优化
[3, 266],涉及两个连续的阶段。首先,它根据从 CD 平衡稳定性得出的所需质心动量率来确定接触扳手的最佳分布。第二阶段使用全身动力学的逆动力学计算实现接触扳手所需的关节扭矩。注:由于角动量的非完整性 [267],即旋转的动能与身体连杆的方向没有直接关系,因此在第一阶段推导所需的质心动量率特别具有挑战性。因此,除了简单的角动量反馈外,身体方向还需要额外的调节(例如,关节级姿势反馈 [3])。
为了解决非完整性问题,第三种策略使用
后优化
[268]。主要思想是在计算关节扭矩时将浮动基座机器人视为固定基座系统。然后通过最佳分布问题将获得的扭矩欠驱动部分映射到接触扳手。该方法避免在预优化策略中指定旋转动量的挑战。
2)
交互作为统一的机器人-物体模型
:统一的机器人-物体系统可以利用附加物体来调节机器人的动力学。这在携带重物或动态移动物体时产生了更动态可行的行为。统一模型将每个被操纵的物体作为一个附加的“机器人”——被动物体或真实机器人——并通过作用力-反作用力对,连接机器人和物体 [269]。平衡稳定性必须考虑机器人-物体系统的组合 CoM 和惯性 [221]。此外,还要保持机器人和物体之间的接触稳定性,以确保物体保持牢固连接。虽然直接控制相互作用力是可行的,但调节物体和机器人之间相对位置的自适应力控制,提供更大的鲁棒性。这种方法减轻惯性参数和刚度属性建模中不可避免的不准确性影响 [191]。
总之,全身控制的核心在于解决逆动力学问题以产生关节级扭矩控制。然而,由于人形机器人的欠驱动和接触约束特性,这个问题具有挑战性。逆动力学控制和操作空间控制等闭式方法,具有计算效率高的特点。因此,它们传统上一直很流行。另一方面,基于优化的策略,尤其是二次规划,越来越受到青睐,因为它们能更有效地适应各种任务规范并提供更可靠的解决方案。毫无疑问,在过去二十年里,这两种 WBC 研究都极大地推动人形机器人控制的发展。在短期内,基于优化的 WBC ,将继续成为低级控制实现高级操作任务的热门选择。最近看,神经 WBC [270, 271, 272] 越来越受欢迎。
机器人技能
是指利用自身的感知、规划和控制能力自主完成指定任务的能力 [273]。在各种机器人技能中,运动操纵对于增强和补充人类能力具有很高的价值。传统上,运动操纵技能是从人类设计师的知识中开发出来的,蒸馏成
预编程的规划器或控制器
。相比之下,
基于学习的方法
利用计算和数据。虽然学习技能需要从自主探索或专家指导中收集大量数据,但这种方法非常有效,因为它往往会产生难以从人类知识中编码的新行为。
基于学习的方法有两个主要方向:(i)在敏捷性、稳健性和安全性方面增强特定技能;(ii)拓宽机器人的整体技能,围绕两个关键目标:多功能性和泛化。多功能性是指单一框架或策略掌握多种技能的能力,而泛化则涉及将现有技能适应新的、超出分布的任务和环境。
在基于学习的方法中,无需演示和从演示中学习的强化学习 (RL),也称为模仿学习 (IL),在机器人技能学习方面表现出色。RL 已成功协调人形机器人的复杂全身运动,包括舞蹈 [270, 274]、敏捷的足球动作 [275] 和稳健的运动 [35, 39]。然而,RL 策略通常针对特定环境中的特定任务进行微调。这种限制很大程度上源于奖励函数仅针对特定任务进行狭隘定制,并且策略只能从相同或相似的环境中学习。相比之下,IL 通过利用大量演示数据集解决这个问题 [37, 276]。 IL 的最新进展已显示出扩展到大量技能的良好结果 [8],显示出解决复杂多技能任务的潜力。
如图所示的技能学习方法组织:
技能学习:从头开始的强化学习
在过去十年中,RL 在现代深度学习工具链和算法的推动下,在机器人领域引起广泛关注。RL 有望成为一种学习运动技能的有效方法,通过奖励理想行为和惩罚不良行为,在训练期间几乎不需要或完全不需要监督。端到端 RL 策略将原始感官输入转化为驱动,并且可以实时执行。
RL 提供独特的优势,但也带来自身的挑战。与基于模型的方法相比,许多 RL 方法都是无模型的,无需精确的动力学。此外,RL 不需要演示数据,因此其训练设置非常简单。但是,它通常需要精心设计
奖励函数
来塑造策略的行为。此外,在机器人硬件上部署学习的策略经常会遇到模拟与现实之间的差距,这是一个众所周知的问题,是由模拟器使用的不准确物理模型引起的。从头开始的策略学习通常需要与环境进行大量且耗时的交互,而且无法保证任务的完成。例如,流行的强化学习算法,如
近端策略优化 (PPO)
[278] 和 SAC [279],无法实现大多数人形机器人的运动操纵任务 [280],部分原因是这些任务的复杂性、样本效率低下以及稀疏的奖励设计。
1)提高学习效率:已经提出几种方法来提高学习效率。课程学习通过允许策略在训练的早期阶段实现简单任务,然后逐步增加任务难度和复杂性来加快训练速度 [281]。另一种方法是促进探索。研究人员使用好奇心机制来鼓励访问未探索的状态,从本质上激励学习,而无需明确的奖励设计 [282]。这已被证明可以克服稀疏的奖励设置并实现复杂的运动操纵行为,例如开门。 [274] 还结合基于好奇心的奖励,以在没有任何运动先验的情况下学习多功能的运动-操纵技能。最后,在受限的 RL 框架中用约束替换奖励项可以显著简化奖励调整,同时实现最先进的运动性能 [283]。
2) 解决模拟-到-现实的差距:模拟到现实是 RL 中的另一项艰巨挑战。尽管如此,RL 已成功应用于机器人技术的各个领域,在四足机器人中取得显著的成功 [284],其中模拟到现实的差距已经得到持续克服。如何将四足机器人的经验应用于人形机器人,以实现最佳运动操纵,同时避免已知的陷阱?四足机器人的成功故事取决于对负担得起的硬件和高度并行的物理引擎基础设施的新投资,由机器人社区的关键参与者牵头。值得注意的是,与典型的运动操纵任务相比,四足机器人在较不复杂的环境中操作时受益于与机械手类似的固有稳定动态系统。
相比之下,人形机器人运动操纵面临着更大的模拟到现实挑战。人形机器人具有更高的自由度和不稳定的动力学,其中重心不断移出支撑多边形(support polygon)。因此,学习全身平衡控制对物理模拟中的参数很敏感,这突显由于虚拟世界和现实世界之间的动态差异而导致的模拟-到-现实的差距。此外,人形机器人有望执行人类级别的操纵任务,其中观察空间和复杂环境的差异加剧由于外观而导致的模拟-到-现实的差距。
为了应对模拟到现实的挑战,已经为人形机器人探索多种主流方法。
域随机化 (DR)
是最广泛采用的方法之一。它改变机器人模型的属性,例如质量、摩擦力和执行器动力学,以训练在现实世界中稳健的广义策略。许多人形机器人作品 [39, 275] 通过 DR 实现从模拟-到-真实的迁移。虽然 DR 的设置很简单,但策略训练对参数随机化范围很敏感,需要进行费力的调整:较大的范围对于策略拟合所有物理参数具有挑战性(即无法学习),而较小的范围则无法覆盖现实物理世界中可能出现的所有参数(即无法迁移)。
除了在 DR 中采用多样化的参数集外,
系统识别 (SI)
是另一种流行的方法,它通过从现实世界数据中近似系统的输入输出行为来增强模型保真度。真实-到-模拟技术使用优化 [285] 或搜索 [286] 来获得能够最好地解释从策略执行中收集的真实机器人轨迹模拟参数。
与使用真实世界数据来获得精确模型的 SI 不同,
域自适应 (DA)
直接使用真实世界数据来微调模拟器训练的策略。在 DA 中,模拟中的参数分布被定义为源域,现实世界中的参数分布被定义为目标域。微调有效地将策略从源域转移到目标域。例如,Sim-to-Lab-to-Real [287] 开发一个两阶段的迁移:在模拟中进行预训练,在现实世界中进行微调。虽然微调只需要有限的硬件数据,但安全仍然是一个主要问题。在收集真实世界数据时,通常会部署安全过滤器来防止危险动作 [288]。
尽管为解决模拟-到-现实的差距做出这些努力,但系统的解决方案仍然难以捉摸,因为上述方法通常是临时的和针对具体案例的。在此背景下,推进人形机器人硬件部署和开发,有助于从真实-到-模拟的构建和从模拟-到-真实迁移的物理引擎将至关重要。同时,必须重新思考强化学习的作用,利用其在人形机器人操作方面的优势并避免其弱点。
小结一下。强化学习提供一种学习人形机器人操作新行为的有效方法。然而,在实践中,强化学习的成功往往依赖于观察和行动的信息表示、广泛的奖励工程、课程学习设计以及大量的反复试验经验来估计梯度。因此,至少在目前的发展阶段,使用强化学习来训练机器人,在现实世界中几乎从来都不切实际。因此,强化学习策略主要在模拟中进行训练。这使得模拟与现实之间的差距成为强化学习的致命弱点,大大削弱其最初的前景。与四足机器人相比,模拟与现实之间的差距,对于执行复杂运动操纵任务的高自由度人形机器人来说,尤其具有挑战性。这就是为什么利用有限但域内真实世界数据的 IL 比没有演示数据的纯强化学习更受欢迎的原因。
技能学习:从机器人经验中模仿
模仿学习 (IL)
是一个总称,代表一类算法,包括监督学习、无监督学习和强化学习,这些算法从专家演示中训练策略。IL 对于难以明确指定的复杂任务特别有效。IL 有三个基本步骤 [299]。第一步是捕捉专家演示。下一步涉及重定位,将这些演示映射到机器人动作上。最后一步是使用重定位的数据进行策略训练。如果捕获的动作来自同一个机器人,例如来自遥操作,则不需要重定位步骤。
人形机器人的四种可能演示来源:(i) 策略执行、(ii) 遥操作、(iii) 动作捕捉和 (iv) 人类视频,如表所示。这些数据源分为两类:第一类是机器人经验数据,表示通过策略执行或遥操作直接从机器人获得的数据;第二种是人类数据,包括从互联网上获得的人类动作捕捉和人类活动视频。机器人经验表现出较小的形态差异,可直接应用于策略学习,但通常很少。相反,人类数据更丰富,但它们与人形机器人存在显著的形态差异。
1)
获取机器人经验数据
:获取机器人经验数据的可靠方法是执行现有的专家策略,无论是基于模型还是基于学习。然而,在物理机器人上收集数据需要费力地设置环境,并引发重大的安全问题。因此,在模拟中进行这些执行是一种更有效的方法,尽管模拟器的保真度不可避免地会导致模拟与现实的差距。
遥操作是直接捕获人类专家指挥机器人数据的最常见方法之一。遥操作的一个主要优点是它能够为各种任务提供平滑、自然和精确的轨迹。如图概述用作策略训练源的遥控数据控制流。此过程的第一步是通过遥控生成演示,由控制流的顶部路径(虚线)表示。运动重定向将遥控设备的人体测量值映射到机器人域中的所需轨迹。从遥控收集的机器人执行数据可用于训练自主策略,这些策略无需人工干预即可直接指挥机器人的运动(实线)。在这种情况下,不需要重定向过程。