专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
练瑜伽  ·  饺子导演的妈妈,真是奇人啊 ·  2 天前  
掌上长春  ·  免费健身、游泳、打球!快抢 ·  2 天前  
练瑜伽  ·  比牛仔裤高 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

Mobile ALOHA:通过低成本全身远程操作学习双手移动操作

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-09-09 00:48

正文

24年1月来自斯坦福的论文“Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation”。

在机器人领域,模仿学习人类示范已取得令人瞩目的成绩。然而,大多数成果都集中在桌面操作上,缺乏一般任务所需的机动性(mobility)和灵活性(dexterity)。这项工作开发了一个系统,用于模仿双手操作且需要全身控制的移动操作任务。Mobile ALOHA 是一种用于数据收集的低成本全身遥操作系统。它通过移动基座和全身遥操作界面增强了原始 ALOHA 系统。用 Mobile ALOHA 可以收集数据进行监督行为克隆,并发现与现有静态 ALOHA 数据集联合训练可提高移动操作任务的性能。通过对每项任务进行50次演示,共同训练可以将成功率提高90%,从而使Mobile ALOHA 能够自主完成复杂的移动操作任务,例如炒虾和上菜、打开双门壁柜来存放沉重的锅、呼叫和进入电梯,以及使用厨房水龙头轻轻冲洗用过的锅。


Mobile ALOHA 是一种低成本的移动机械手,可以执行各种家务。Mobile ALOHA 继承了原始 ALOHA 系统 [104] 的优点,即低成本、灵巧和可维修的双手遥控装置,同时将其功能扩展到桌面操作之外。具体来说,结合了四个关键的设计考虑因素:

  • 1. 移动:该系统可以以与人类步行相当的速度移动,约为 1.42 米/秒。

  • 2. 稳定:在操纵锅和橱柜等重型家用物品时很稳定。

  • 3. 全身遥控:所有自由度都可以同时遥控,包括双臂和移动底座。

  • 4. 不受束缚:机载电源和计算。

如图是 Mobile ALOHA 硬件详情。左图:Mobile ALOHA 有两个腕部摄像头和一个顶部摄像头,配备板载电源和计算功能。中图:Mobile ALOHA 遥控装置可以移除,在自主执行期间仅使用两个 ViperX 300 [3];两个手臂可以达到的距离是最小/最大高度 65 厘米/200 厘米,并从底座延伸距离到 100 厘米。右图:Mobile ALOHA 的技术规格。


根据第 1 和第 2 点考虑,选择 AgileX Tracer AGV(“Tracer”)作为移动基座。 Tracer 是一款专为仓库物流设计的低-轮廓差分驱动的移动基座。 它可移动至 1.6 米/秒,与人类平均步行速度相似。 最大有效载荷为 100 公斤,高度为 17 毫米,可以在离地面较低的地方添加平衡重量,实现所需的翻倾稳定性。 Tracer 在可进入的建筑物中具有足够的跨越性: 它可以跨越高达 10 毫米的障碍物和陡峭至 8 度的斜坡,最小离地间隙为 30 毫米。 在实践中,它能够应对更具挑战性的地形,例如跨越地板和电梯之间的间隙。 Tracer 在美国的售价为 7,000 美元,比 Clearpath 等具有类似速度和有效载荷的自动引导车(AGV)便宜 5 倍以上。

寻求在 Tracer 移动基座和 ALOHA 臂的基础上设计一个全身遥控操作系统,即允许同时控制基座和两个手臂遥控系统(考虑 3)。这种设计选择在家庭环境中尤其重要,因为它扩展了机器人的可用工作空间。考虑打开双门柜子的任务。即使对于人类来说,在打开柜门时也会自然地后退,以避免碰撞和尴尬的关节配置。遥控操作系统不会限制这种协调的人体运动,也不会在收集的数据集中引入不必要的 artifacts。然而,设计一个全身遥控系统可能很有挑战性,因为双手已经被 ALOHA 引导臂占用。将操作员腰部系在移动基座上的设计,是最简单、最直接的解决方案,如上图左所示。人类可以反向驱动车轮,当扭矩关闭时,车轮的摩擦力非常小。测量乙烯基地板上的滚动阻力约为 13N,大多数人都可以接受。将操作员直接连接到移动机械手,还可以在机器人与物体碰撞时提供粗略的触觉反馈。为了改善人体工程学(ergonomics),挂链点的高度和引导臂的位置都可以独立调节,最大调节范围为 30 厘米。在自主执行期间,还可以松开 4 颗螺钉将挂链结构与两个引导臂一起拆卸。这减少了移动机械手的占地面积和重量,如上图中所示。为了改善人体工程学并扩大工作空间,还将四个 ALOHA 臂全部朝前安装,不同于原来的 ALOHA,其臂朝内安装。

为了使移动机械手不受束缚(考虑 4),在底座上放置了一个重 14 公斤的 1.26kWh 电池。它还可以作为平衡重量以避免翻倒。数据收集和推理期间的所有计算都在配备 Nvidia 3070 Ti GPU(8GB VRAM)和 Intel i7-12800H 的消费级笔记本电脑上进行。它接受来自三个 Logitech C922x RGB 网络摄像头的数据流,分辨率为 480x640,频率为 50Hz。两个摄像头安装在跟随者机器人的手腕上,第三个摄像头朝前。笔记本电脑还通过 USB 串行端口接受来自所有 4 个臂的本体感受(proprioception)流,并通过 CAN 总线接受来自 Tracer 移动基座的本体感受流。记录移动基座的线性和角速度,用作学习策略的动作。还记录所有 4 个机器人手臂的关节位置,用作策略的观测和动作。

考虑到上述设计因素,以 32,000 美元的预算构建Mobile ALOHA,其预算与单个工业协作机器人(例如 Franka Emika Panda)相当。如上图(中间)所示,移动机械手的动作距离可以垂直于地面达到 65 厘米至 200 厘米,向外延伸 100 厘米,可以举起 1.5 公斤重的物体,并且可以在 1.5 米高度施加 100N 的拉力。移动 ALOHA 能够执行的一些示例任务包括:







请到「今天看啥」查看全文