外骨骼机器人在助力行走方面展现出显著效果,然而其实际应用却大多局限于实验室环境内。造成这一现象的主要原因在于,外骨骼机器人的控制策略往往依赖于预定义的辅助配置文件,或者需要对每个新用户进行长达数小时的软件算法微调,以确保机器人能够精确适应每个人的步行特征和步态习惯。
即便只是开发单一的步行策略,也需要对每个参与者进行长时间的人体测试。
因此,当需要更换使用者或调整活动类型时,调整控制器的成本会变得非常高昂。同时,针对不同活动,常需手工制定特定的控制规则。随着活动种类的不断增加,控制器的设计日益复杂,这使得外骨骼机器人的广泛应用变得不切实际。
与之类似的是,以外骨骼机器人为代表的可穿戴机器人普遍在模拟到现实(sim2real)技术转化过程中面临挑战。这
不仅需要深入探究人与机器人间的复杂交互机制,同时还必须应对将经过训练的控制器实际部署到物理机器人上时,所面临的模拟与现实之间显著性能落差,即巨大的sim2real差距。
这一难题无疑增加了可穿戴机器人技术开发的难度与复杂性。
▍提出模拟学习框架!突破仿真与现实鸿沟?
由于每个人的生物力学特征存在显著差异,导致仿真与现实之间存在巨大的鸿沟,因此在可穿戴机器人领域,从仿真到现实(sim2real)的迁移学习尚未有人涉足。
近日,
来自美国北卡罗来纳州立大学与北卡罗来纳大学教堂山分校的苏浩团队
对此进行了深入研究,并
提出了一种创新的人工智能框架,成功突破了仿真与现实之间的障碍。
该模拟学习框架巧妙地结合了动态感知的肌肉骨骼和外骨骼模型,以及数据驱动的强化学习技术,实现了在无人体实验情况下缩小模拟与现实间的差距。
通过采用这种“计算机仿真中的机器学习”(learning-in-simulation)(即数字孪生方法),该团队赋予了机器人智能化特性,尤其是出色的泛化能力,使其能够适应各种人群。
在这种基于模型和数据驱动的强化学习算法助力下,外骨骼机器人能够自动生成不同的活动辅助,如步行、跑步和爬楼梯等,并有效降低人体能量消耗,分别降低24.3%、13.1%和15.4%的代谢率。
这一创新性框架为开发各类辅助机器人——无论是面向身体健全者还是行动不便者——提供了一个既具有推广性又具备扩展性的策略。该技术使机器人更加智能和实用,有望极大地提高老年人,行动障碍人士和残疾人的生活质量。
该研究成果的相关论文以“Experiment-free Exoskeleton Assistance via Learning in Simulation”为题发表在《Nature》杂志上
。美国安柏瑞德航空大学的助理教授罗淑贞为第一作者。北卡罗来纳州立大学博士生姜梦涵、朱君玺、Israel Dominguez,北卡罗来纳州立大学博士后研究员张赛男、于双悦,北卡罗来纳州立大学研究助理王天,密歇根大学教授Elliott Rouse,加州大学洛杉矶分校教授Bolei Zhou,韩国科学技术高等研究院博士Hyunwoo Yuk和新泽西理工学院教授周先连为共同作者,苏浩教授为论文通讯作者。
接下来,一起来和机器人大讲堂深入探索这一研究成果!
▍无需实验便可缩小模拟与现实差距?模拟学习框架如何构成?
为了应对从模拟到现实存在的sim2real迁移学习挑战,并实现无需实验学习,苏浩团队采取了一系列创新措施。
首先,研究人员创建了高度逼真的肌肉骨骼模型,并构建了一个数据
驱动组件,
该组件由三个相互连接的多层感知器神经网络组成。
这些网络深度集成了人类模型(包含运动模仿网络和肌肉协调网络)与外骨骼控制器(神经网络的控制策略),科通过高效的状态信息交换,精准模拟人机互动过程。
通过模拟学习对外骨骼辅助进行无实验优化:
a、现有的基于实验的控制器开发和外骨骼实际部署策略。训练后列表示将控制器部署到实际应用中所需的调整时间。b 、所提出的无需实验的方法称为模拟学习。c 、基于神经网络的控制器在模拟中训练 8 小时(左)和在无需进一步训练的情况下在不受束缚的外骨骼上立即部署自主学习控制器进行实际部署(右)。d 、学习到的控制器辅助行走、跑步和爬楼梯。e 、自适应学习控制器降低三项活动(行走、跑步和爬楼梯)的代谢成本。e 中的值是平均值和标准差( e中的实验是独立重复的; 行走n = 8, 跑步n = 8, 爬楼梯n = 8)。
控制框架从运动捕捉数据集中提取学习资料,
该数据集包含了一个代表性受试者在步行、跑步和爬楼梯等每个活动中的10秒参考数据。通过这些数据,研究人员训练了基于神经网络的外骨骼控制器。在历经数百万次的肌肉骨骼模拟进化后,该控制器可学会如何通过最大化奖励(即降低肌肉激活程度)来提升人类运动表现。
为了提高模拟的真实性以及训练数据的效率,团队方法的动态感知部分融合了一个包含50个自由度的全身肌肉骨骼模型。
这个模型不仅涵盖了208块上下肢骨骼肌,还整合了本研究中定制的髋关节外骨骼机械模型。强化学习通常被认为是数据密集型的,因此其计算成本相对较高。然而,通过将物理模型融入学习过程,研究人员能够更有针对性地指导学习过程,进而提升效率。
此外,研究人员还使用了线性弹性模型来模拟真实的人机接触,
以促进控制器的设计工作。
在训练过程中,肌肉骨骼模型和外骨骼控制器并行进行,以确保在外骨骼的辅助下可以产生高度逼真的生物力学反应。最终,研究人员在纯模拟环境中获得了一个能够跨越三项活动及其转换的统一控制器。
模拟学习框架:
a、由 208 块肌肉组成的全身肌肉骨骼人体模型。b 、基于物理的外骨骼模型。c 、在数据驱动和动态感知的人外骨骼模拟中进行强化学习,包括用于多种活动的运动模仿神经网络、用于复制人体肌肉反应的肌肉协调神经网络和用于自动生成连续辅助扭矩曲线的外骨骼控制神经网络。d 、在物理系统中部署学习到的控制器。
由于模拟学习框架能够直接将机器人的传感器输入映射为辅助扭矩,因此它
能够实现高效的端到端控制,而无需任何中间步骤。
所学得的控制器不仅计算效率高,而且结构简单,仅由三层全连接网络构成,这使得它能够在微控制器上轻松部署。
相较于依赖昂贵设备和大量人体测试进行调整的传统人机回路方法,
苏浩团队开发的控制器显得更为便捷和经济,仅需要利用便携式可穿戴传感器
——即每条大腿上配备的一个九轴惯性测量单元(IMU)传感器(LPMS-B2、LP-Research)——
来获取运动测量值。
此外,该控制器还能自动适应三种不同的活动及其转换,无需任何手动操作。更为出色的是,它生成的辅助扭矩曲线能够根据不同用户在各项活动中的特定运动模式(如大腿的角度和角速度)进行调整。这一出色的计算效率和适应性得益于控制策略在模拟环境中的训练和优化,该环境与真实世界的动力学和生物力学特性高度相似。
▍模拟学习框架性能测试
以前的研究往往受限于密集的人体测试、依赖手工制作的规则以及难以适应多样化活动的问题。
研究团队通过稳态步行、跑步实验以及活动转换实验,成功地验证了其所研发的控制器能够为用户在进行多种运动时提供协同辅助,
从而突破了上述限制。
为验证控制器对不同运动活动的适应能力,研究团队进行了一系列跑步机实验。实验涵盖了以三种不同速度进行的行走和跑步测试。在实验过程中,控制器网络中的权重和偏差直接来源于模拟结果,而输入数据则通过安装在每条大腿上的IMU传感器来测量大腿的角度和角速度。这些可穿戴传感器提供的数据被用于解读人体运动意图,并据此生成外骨骼所需的辅助扭矩。
团队所采用的由三层神经网络构成的控制器,在运行Simulink Real-time的台式计算机上得以实现。值得一提的是,该方法无需进行中间活动检测或步态周期检测。在每个时间步长(设定为100 Hz,即0.01秒),辅助扭矩都会根据当前的大腿角度和角速度,结合过去0.03秒(相当于三个时间步长)的历史数据,进行实时生成。通过模拟训练,控制器已学会将人体运动视作一个连续不断的过程,并能够产生恰当的实时辅助扭矩。这种扭矩不仅在稳定运动状态下,而且在运动过渡阶段都能与用户的动作产生良好的协同效应。
通过学习控制器实现的通用和自适应辅助扭矩:
a、实验装置示意图。b 、以 0.75、1.25 和 1.75 m s −1 的速度行走以及以 2 m s −1的速度跑步的辅助扭矩曲线(按体重标准化) ,作为步态阶段的函数。每条线代表八名参与者中的一名参与者在约 30 步的平均辅助曲线。c 、每项活动的最大辅助扭矩。在箱线图中,中心线代表中位数,箱线界限划定第 25 和第 75 百分位数,晶须反映最大值和最小值(n = 8;个体参与者)。b和c中的 实验在每种速度下独立重复。
为了便于与先前的研究进行比较,研究人员特别选取了0.75、1.25和1.75 m/s的速度进行步行测试,以及2 m/s的速度进行跑步测试。通过跨越不同的步速进行测试,研究人员旨在证明控制策略具有广泛的适用性。在模拟环境中训练得到的控制器所产生的辅助扭矩,能够灵活适应不同速度的行走和跑步需求。
由于控制器能够针对每位参与者独特的运动模式(大腿角度和角速度)进行调整,因此每位参与者(n=8)在各项活动中所获得的扭矩曲线都略有差异。同时,随着运动速度的提升,步行和跑步之间的扭矩曲线幅度也随之增加,这表明控制器能够为不同强度的活动提供相应的协同辅助。
为了验证控制器在三项活动及其转换中的平稳协同辅助能力,研究人员对一名参试者进行了现实世界中的活动变化实验。实验过程包括从约0.8 m/s的慢走逐渐加速到约2 m/s的跑步,然后减速,并最终平稳过渡到爬七级台阶。在此次跑步机实验中,研究人员采用了与之前相同的神经网络控制器,该控制器在分层机电一体化架构上得以实现,配备了高级微控制器(Raspberry Pi 4)。该高级微控制器负责向位于腰部控制箱的低级微控制器(Teensy,PJRC)发送扭矩指令。
各种活动和运动转换期间的代表性辅助扭矩:
a,在一次试验中,代表性参与者在连续转换活动期间的快照。b 、 c ,在步行(约 0.8 m s −1)、跑步(约 2 m s −1 )和爬楼梯之间的运动转换期间,由学习控制器自主生成的连续辅助扭矩( b)和机械功率(c )曲线。
在步行、跑步和爬楼梯的过程中,扭矩曲线呈现出明显的形态变化和辅助幅度差异。同时,外骨骼的机械功率也随运动强度的变化而变化,这进一步证明了控制器能够为用户提供协同辅助。值得注意的是,由于穿戴带相对较软,IMU传感器的读数无法精确反映大腿的实际运动情况,因此记录中出现了几个较小的负功率峰值。然而,这些负峰值非常小(仅占每个步态周期总传递机械功的平均值的3.47%),并且持续时间极短(大约0.04-0.08秒,仅占步态周期的6-8%),因此对外骨骼辅助的整体效果影响几乎可以忽略不计。
代谢率是评估人类在外骨骼辅助运动过程中效能的核心指标。在苏浩团队的研究中,机器人辅助显著提升了所有参与者在步行(n = 8)、跑步(n = 8)和爬楼梯(n = 8)过程中的能量使用效率,从而验证了控制器的有效性。
对于每项活动,研究人员均测试了三种不同条件:开启辅助、关闭辅助以及无外骨骼(无exo)状态。为了精确测量关节角度和角速度,研究人员在参与者的两条大腿上各安装了一个九轴IMU传感器。
在跑步机上以1.25 m/s的速度水平行走5分钟后,研究人员观察到,在无exo条件下,参与者的净代谢率(基于最后2分钟的测量)为2.91 ± 0.26 W/kg,而在开启辅助条件下,这一数值降至2.19 ± 0.19 W/kg(平均值±标准误)。相较于无exo条件,辅助条件下的代谢率降低幅度在19.9%至30.8%之间,平均降低24.3%。
步行、跑步和爬楼梯时代谢率降低:
a 、在三种条件下(开启辅助、关闭辅助和无外骨骼),以 1.25 m s −1的速度平地行走、以2.0 m s −1 的速度跑步、以 65 步 min −1 的速度爬楼梯的平均净代谢率。b、c、与最先进的便携式髋关节外骨骼 13、15、28、30、31、32、33、34、35、36(b)以及便携式膝关节 41、44 和便携式踝关节外骨骼 2、45(c)相比,在行走(1.25 m s −1 )、跑步( 2.5 m s −1)和爬楼梯时代谢率的降低。完整的比较列表可参见补充表4和补充表5。在a的箱线图中,中心线代表中位数,箱线边界表示第 25 和第 75 百分位数,晶须反映最大值和最小值(n = 8 代表步行;n = 8 代表跑步;n = 8 代表爬楼梯;个人参与者)。a中 的实验针对每项活动独立重复。统计显着性和P值由单侧配对t检验确定;* P ≤ 0.05;** P ≤ 0.01。
同样,在跑步机上以2.0 m/s的速度跑步5分钟后,无exo条件下的净代谢率为8.25 ± 0.92 W/kg,而在辅助条件下则降低至7.19 ± 0.85 W/kg。与无exo条件相比,辅助条件下的代谢率降低范围在7.6%至20.8%之间,平均降低13.1%。
此外,在踏步机上以65步/分钟的速度爬楼梯5分钟,无外骨骼条件下的净代谢率为5.54 ± 0.24 W/kg,而在有辅助条件下则降低至4.66 ± 0.22 W/kg。相较于无外骨骼条件,有辅助条件的代谢率降低幅度在8.7%至25.7%之间,平均降低15.4%。
实验结果表明,在最先进的便携式外骨骼中,苏浩团队研发的控制器助力外骨骼机器人在步行、跑步和爬楼梯方面实现了最大的代谢成本降低。
参考文章:
http://www.nature.j.yyttgd.top/articles/s41586-024-07382-4#Abs1
苏浩教授实验室正在招聘mechatronics,electronics, control和reinforcement learning方向的博士生和博士后,欢迎email联系[email protected]申请。苏浩教授实验室主页:https://haosu-robotics.github.io/
如需咨询企业合作事宜,欢迎联系堂博士(13810423387,手机与微信同号)进行对接。
----------------END----------------