专栏名称: 机器人大讲堂
机器人大讲堂是立德共创服务平台旗下引领行业发展的新媒体平台,已举办多种形式系列活动近百场,行业媒体矩阵垂直粉丝20万余人;立德研究院承接智库咨询和科研项目;立德孵化基于顶尖专家优势形成早期高技术成果产业化。
目录
相关文章推荐
彬彬有理  ·  《哪吒2》爆火的原因,很残忍 ·  昨天  
中国基金报  ·  刚刚!5000亿央企,重组大动作! ·  3 天前  
中国基金报  ·  突发!俄罗斯遭袭 ·  3 天前  
51好读  ›  专栏  ›  机器人大讲堂

提出UMI-on-Legs!斯坦福&谷歌DeepMind提出模拟与现实融合新策略,或将引领操作技能通用化趋势!

机器人大讲堂  · 公众号  ·  · 2024-07-21 12:42

正文

无论是通过模拟环境还是通过现实世界收集数据,机器人数据的收集都存在面临着亟待解决的痛点和难点。

在现实世界中, 尽管机器人的远程操作允许人类直接演示新任务,但这种方式却常常受到机器人物理硬件的限制。除了 成本和安全问题 ,机器人硬件的介入通常导致所收集的数据往往具有特定的机器人依赖性,例如依赖于特定的身体指令,甚至 在机器人身体形态发生变化时,这些数据可能变得不再适用。

相比之下, 模拟环境 可为任何新型机器人设计提供安全的探索空间和无限的重置机会。然而,这种方法也面临着 任务多样性的限制 。如何准确模拟各种对象及其动态,以及定义所有任务及其相关奖励,仍然是一个亟待攻克的重大难题。

近日,来自 斯坦福大学机器人与具身人工智能实验室和谷歌DeepMind机器人团队 的研究人员联手合作就该问题进行了深入研究,并 提出一个专为四足机器人设计的操作系统——UMI on Legs。

UMI-on-Legs巧妙地融合了现实世界的人类演示与基于模拟的强化学习,可训练跨不同实施例的移动操作系统。该框架不仅提供了一个可扩展的学习路径,使机器人能够掌握并表达操作技能,还允许在没有实际机器人参与的情况下,将收集到的真实数据转化为适用于各种配备特定控制器的移动机器人平台的操作技能。

在此框架内,研究人员创新性地提出了一个以操作为核心的全身控制器,该控制器采用直观的轨迹接口设计。这一简洁的界面不仅支持现有操作策略的即时跨实施例部署,还具备足够的灵活性,能够精准表达复杂的操作技能。

此外,研究人员还开发了一套实用的部署系统,该系统集成了实时、鲁棒且易于访问的测距方法,特别适用于野外任务空间的跟踪作业。这一创新有效解决了移动操作系统在实现快速、精确操作过程中常遇到的瓶颈问题。

该研究成果的相关内容,接下来和机器人大讲堂一起来看看吧!

▍UMI on Legs的构成

UMI-on-Legs主要由两大核心组件构成:一是高级扩散操作策略,该策略接收手腕相机的视图作为输入,并输出一系列未来相机帧中的产品姿态目标;二是低级全身控制器,负责追踪这些产品姿态目标,并输出腿部和手臂的关节位置目标。

研究团队 提出的操作策略专注于任务进展,实现了操作的解放。 与大多数现有的全身控制器(WBCs)相比,后者主要使用身体框架跟踪,经过训练以追踪基础扰动,但实际上将任务空间跟踪的责任推给了低频的操作策略,且无法对身体扰动做出快速响应。研究团队 利用UMI这一手持式夹持器数据收集设备在现实世界中收集数据,并使用大规模并行模拟器在完全模拟的环境中训练WBC。

选择任务帧末端执行器轨迹作为界面带来了以下优势:

直观的演示: 通过使用末端执行器轨迹而非机器人特定的低级动作,允许非专家用户使用UMI等手持设备进行直观的任务演示。

来自预览视野的高级意图: 全身控制器可以预览未来目标,从而预测即将到来的动作,例如为高速投掷做好准备,或当目标在手臂伸展范围内移动时调整身体姿势,避免迈出可能导致末端执行器摇晃的步伐。

在任务框架中的精确和稳定操作: 与大多数使用身体框架跟踪的腿部操作系统不同,研究团队的控制器跟踪任务空间中的动作,无论基础运动如何,都能持久保持,从而实现精确和稳定的操作。

异步多频执行: 该界面定义了一个自然的推理层次结构,允许低频操作策略(1-5Hz)与高频低电平控制器(50Hz)协调,以处理完全不同的传感器和推理延迟。

兼容任何基于轨迹的操作策略: 界面支持任何基于轨迹的操作策略的即插即用功能,随着政策训练在不同数据集上的兴起,研究团队的以操作为中心的WBC可以加速将现有的“桌面”操作技能移植到“移动”操作。

▍UMI on Legs的部署

在具体实施上,研究团队使用一个U-Net架构的扩散策略与DDIM调度器和一个预先训练的CLIP视觉编码器。为低级控制器提供更长的行动范围和更多的信息。对于杯子重排任务,直接使用UMI的杯子重排检查点;对于推掷任务,则从头开始收集数据和训练扩散策略。

为了跟踪从操作策略中预测的末端执行器轨迹,研究团队在模拟中训练了一个具有强化学习的全身控制器来推断手臂和腿部关节目标。这种设计大大减轻了在使用模拟数据时的一个关键瓶颈。研究团队训练控制器跟踪任务框架中的姿势轨迹,这教导了手臂通过补偿和取消身体的运动或震动,在任务框架中保持其末端效应器的姿势。为了给控制器提供相关的参考轨迹,研究团队使用了用UMI收集的轨迹。

在观测空间和奖励设置上,研究团队也进行了精心设计。观测空间包括机器人的关节位置和速度、基本方向和角速度、之前的动作以及由操作策略推断出的末端执行器轨迹。奖励则最小化了位置和方向误差,以确保控制器能够准确地跟踪目标姿态。

机器人系统由一个四足动物机器人和一个机器人臂组成,两者都由同一电池供电。全身控制器运行在机器人的车载CPU上,而扩散策略推理则在一个单独的桌面上进行。为了获得更好的鲁棒性,研究团队在训练过程中在机器人上增加了随机推力,并随机化了关节摩擦、阻尼等参数。同时,为了解决之前四足动物操作工作中缺乏实时机载任务空间跟踪的问题,研究团队在机器人底座上安装了iPhone进行姿态估计。

▍UMI on Legs的测试

研究团队设计了一系列模拟和现实世界中的实验,以验证其UMI-on-Legs系统的关键设计决策。这些实验旨在回答几个核心问题:

能力验证: 研究团队探索了UMI-on-Legs系统是否具备学习复杂且具有挑战性的操作技能,如全身动态动作(例如投掷)。

鲁棒性测试: 研究人员进一步检验了全身控制器在处理操作过程中遇到的意外外部扰动和物体动力学方面的能力。

可扩展性探讨: 他们还研究了是否可以利用完全脱离机器人的跨形态操作数据。

在模拟实验中,研究团队报告了500个回合的平均位置误差(厘米)、方向误差(弧度)、生存率(%)和电能消耗(千瓦)。而在真实世界实验中,他们则关注20个回合的平均成功率。

动态投掷策略的创新发现


针对动态投掷这一极具挑战性的任务,研究团队发现了一种全身协调策略。通过学习跟踪投掷轨迹,他们的控制器实现了在有限臂力和身体惯性条件下的可靠投掷。这一动作涉及全身各关节的协同作用,以及瞬间单脚/双脚平衡技巧,有效利用了身体质量惯性来保持平衡。实验结果显示,该系统在使用运动捕捉和iPhone里程计时,分别达到了较高的成功率。

鲁棒性展现:应对意外扰动


在壶铃推动实验中,研究团队展示了其全身控制器的鲁棒性。面对壶铃的重量和静摩擦等挑战,控制器能够动态调整策略,保持平衡并完成任务。实验数据表明,该系统在处理大扰动时表现出了出色的稳定性和适应性。

跨形态操作策略的成功应用


研究团队还尝试将预先训练的操作策略直接部署到UMI-on-Legs系统上,实现了零样本泛化。他们通过野外杯子重新排列任务验证了这一点,展示了该系统在精确6自由度末端执行器运动方面的能力。这一成果表明,跨形态操作策略在实际应用中具有广阔前景。

参考文章

https://umi-on-legs.github.io/static/umi-on-legs.pdf

如需咨询企业合作事宜,欢迎联系堂博士(13810423387,手机与微信同号)进行对接。


----------------END----------------




工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 节卡机器人 | 珞石机器人 | 法奥机器人 | 非夕科技 | CGXi长广溪智造 | 大族机器人 | 越疆机器人 | 睿尔曼智能 | 优艾智合机器人 | 阿童木机器人 | 盈连科技

服务与特种机器人企业

亿嘉和 | 晶品特装 | 九号机器人 | 普渡机器人 | 机器姬 | 猎户星空 | 七腾机器人

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 磅客策 | 柏惠维康 | 迪视医疗

人形机器人企业

优必选科技 | 宇树 | 达闼机器人 | 云深处 | 理工华汇 | 傅利叶智能 | 逐际动力 | 乐聚机器人 | 星动纪元 | 天链机器人 | 中科深谷 | 大象机器人 |







请到「今天看啥」查看全文