24年9月来自上海AI实验室、西安交大-利物浦分校、西工大和中国电信AI研究院的论文“Fast-UMI: A Scalable and Hardware-Independent Universal Manipulation Interface (Short Version)”。
收集涉及机械臂的真实世界操作轨迹数据对于开发机器人操作中的通用动作策略至关重要,但此类数据仍然稀缺。现有方法面临着诸如成本高、劳动强度大、硬件依赖性以及涉及 SLAM 算法的复杂设置要求等限制。这项工作引入 Fast-UMI,一种界面-协调的操作系统,由两个关键组件组成:由人类操作的用于数据收集手持设备和在策略推理期间使用的机器人安装设备。该方法采用与各种夹持器兼容的解耦设计,同时保持一致的观察视角,允许在手持收集的数据上训练的模型直接应用于真实机器人。通过使用现有的商用硬件产品直接获取末端执行器姿势,消除对复杂 SLAM 部署和标定的需求,从而简化数据处理。Fast-UMI 提供支持软件工具,用于高效的机器人学习数据收集和转换,促进快速、即插即用的功能。该系统为机器人学习数据采集提供一种高效且用户友好的工具。
UMI 系统解决了人类演示数据收集中的挑战,并支持跨各种场景的动作策略学习,但它仍然有两个限制:与特定机器人硬件的强耦合,以及系统中使用开源 SLAM 带来的复杂性。首先,系统对硬件的严格要求(例如必须使用 Weiss WSG-50 夹持器)带来了限制。用户必须采购这些特定组件才能直接实施 UMI,这会增加成本并限制具有不同机器人配置的用户采用 UMI。将 UMI 适配到其他硬件需要重新设计夹持器、重新标定摄像头、执行 SLAM 标定和修改代码参数,这些都是劳动密集型任务,妨碍了即插即用功能。此外,这些修改通常缺乏通用性,使跨不同实验室和设备的应用变得复杂。其次,虽然利用 SLAM 技术可以估计末端执行器的姿势,但使用 ORB-SLAM3 等开源解决方案会带来额外的挑战。SLAM 性能高度依赖于手持设备的参数设置,部署和调试复杂且耗时。用户必须在配置期间投入大量精力进行数据可视化和对齐。该系统还需要涉及多个转换步骤的全局坐标标定,从而降低了用户友好性。此外,收集的数据是否可用于训练取决于 SLAM 算法的性能;无法获得准确的末端执行器坐标可能需要丢弃数据,从而降低收集效率。