Fast-UMI：一种可扩展且独立于硬件的通用操作接口

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-11-20 00:15

正文

24年9月来自上海AI实验室、西安交大-利物浦分校、西工大和中国电信AI研究院的论文“Fast-UMI: A Scalable and Hardware-Independent Universal Manipulation Interface (Short Version)”。

收集涉及机械臂的真实世界操作轨迹数据对于开发机器人操作中的通用动作策略至关重要，但此类数据仍然稀缺。现有方法面临着诸如成本高、劳动强度大、硬件依赖性以及涉及 SLAM 算法的复杂设置要求等限制。这项工作引入 Fast-UMI，一种界面-协调的操作系统，由两个关键组件组成：由人类操作的用于数据收集手持设备和在策略推理期间使用的机器人安装设备。该方法采用与各种夹持器兼容的解耦设计，同时保持一致的观察视角，允许在手持收集的数据上训练的模型直接应用于真实机器人。通过使用现有的商用硬件产品直接获取末端执行器姿势，消除对复杂 SLAM 部署和标定的需求，从而简化数据处理。Fast-UMI 提供支持软件工具，用于高效的机器人学习数据收集和转换，促进快速、即插即用的功能。该系统为机器人学习数据采集提供一种高效且用户友好的工具。

收集机械臂与现实环境中目标交互的数据对于推进机器人操控的通用动作策略至关重要 [1, 6, 15]。然而，此类交互数据的稀缺严重阻碍了该领域的进展。现有的数据收集系统可分为三类：直接人类遥操作 [16]、基于沉浸式技术的遥操作 [7, 12]、基于视觉的数据收集 [2, 9] 和界面-协调操控 [3, 11, 13]。

直接人类遥操作，涉及操作员远程或现场控制机器人以获取综合数据，包括视觉输入、运动状态和动作命令。虽然这种方法提供了高质量的数据，但成本高昂且劳动密集型。即使使用像 SpaceMouse 这样的六自由度控制器，收集细粒度操作的数据仍然具有挑战性，因为难以精确对准小目标物体。基于视觉的数据收集，使用摄像头（例如可穿戴设备）来捕获交互数据，而无需直接控制机器人。虽然这种方法可以收集某些视觉信息，但它缺乏表示机械臂与其环境之间复杂交互的能力 [8]。以通用操作界面 (UMI) [6] 为例的界面协调操纵系统采用手持式夹持器和专用界面从人类演示中收集数据，特别是捕捉机械臂的末端执行器姿势。然后，像扩散策略 [5] 这样的算法会从收集的数据中推断出机器人的动作，从而降低成本并简化数据收集过程。

UMI 系统解决了人类演示数据收集中的挑战，并支持跨各种场景的动作策略学习，但它仍然有两个限制：与特定机器人硬件的强耦合，以及系统中使用开源 SLAM 带来的复杂性。首先，系统对硬件的严格要求（例如必须使用 Weiss WSG-50 夹持器）带来了限制。用户必须采购这些特定组件才能直接实施 UMI，这会增加成本并限制具有不同机器人配置的用户采用 UMI。将 UMI 适配到其他硬件需要重新设计夹持器、重新标定摄像头、执行 SLAM 标定和修改代码参数，这些都是劳动密集型任务，妨碍了即插即用功能。此外，这些修改通常缺乏通用性，使跨不同实验室和设备的应用变得复杂。其次，虽然利用 SLAM 技术可以估计末端执行器的姿势，但使用 ORB-SLAM3 等开源解决方案会带来额外的挑战。SLAM 性能高度依赖于手持设备的参数设置，部署和调试复杂且耗时。用户必须在配置期间投入大量精力进行数据可视化和对齐。该系统还需要涉及多个转换步骤的全局坐标标定，从而降低了用户友好性。此外，收集的数据是否可用于训练取决于 SLAM 算法的性能；无法获得准确的末端执行器坐标可能需要丢弃数据，从而降低收集效率。

Fast-UMI 系统的设计，有两个关键组件：用于数据收集的人类操作手持设备和在策略推理期间使用的机器人安装设备。其设计旨在确保这些设备之间的视觉对齐，同时与特定的机器人硬件分离以增强适应性。

基于目标，原型设计解决了几个关键挑战。一个重大挑战是将系统与特定的机器人硬件分离以增强适应性。设计可与各种机械臂和夹持器无缝集成的组件（每个组件的尺寸、形状和机械接口各不相同）需要创新的机械解决方案。实现手持设备和机器人安装设备之间的视觉一致性是另一个挑战。夹持器尺寸的变化需要可调节的机械设计以保持一致的摄像头视角，这对于机器人学习算法中的有效策略转移至关重要。快速部署以促进快速的用户设置也是一个关键问题。创建即插即用解决方案需要仔细考虑系统架构，尽量减少大量标定、机械调整或软件配置的需要。确保用户能够以最小的努力安装和配置系统对于广泛采用至关重要。最后，为未来的可扩展性做好准备以支持多模态数据集带来模块化和灵活性方面的挑战。需要设计系统以适应未来迭代中的其他传感器和数据类型，而无需进行重大重新设计，这需要对硬件和软件组件采取前瞻性的方法。

为了应对这些挑战，采用一种解耦设计理念。将手持设备的相同指尖延伸部分连接到机器人的夹持器上。这种设计保持了机器人系统和手持设备之间的一致性，允许使用通过手持设备收集的数据训练模型直接应用于真实机器人。开发可插入的指尖延伸部分，与五种主流夹持器型号兼容，包括 XArm 夹持器 5 和 robotiq 2f-856。这种方法也可以适用于其他类型的夹持器。

如图所示 Fast-UMI 系统的物理原型。左图：手持设备集成用于视觉监控的 GoPro 摄像头、用于捕捉末端执行器六自由度姿势的 RealSense T265 以及配备指尖标记以测量夹持器孔径的黄色夹持器。右图：机器人安装的设备复制了手持配置，以确保人类演示和机器人执行之间的观察视角一致。采用颜色编码方案来区分 Fast-UMI 和原始 UMI 系统的硬件架构。绿色表示 UMI 中不存在的新组件；蓝色表示基于 UMI 对应组件重新设计的组件；红色表示 Fast-UMI 和 UMI 之间共享的组件。

如图显示 Fast-UMI 设备的各个组件：采用颜色编码方案根据采购方式对硬件组件进行分类，蓝色代表需要购买的组件，黄色表示需要 3D 打印的组件。

手持设备用于手动数据收集以训练动作策略。它包括：

• 带鱼眼扩展模块的 GoPro 相机：捕捉鱼眼图像以进行监控和数据收集。
• RealSense T265 相机：获取末端执行器的六自由度姿势。
• 手持式夹持器：指尖配备两个标记，用于记录夹持器的宽度。

特别注意将相机的视点与夹持器的指尖对齐，以确保与机器人安装设备的视觉一致性。

机器人安装设备经过精心设计，可适应各种机械臂配置。它主要包括：

• GoPro-Robot 支架（棕色延长板）：用作 GoPro 相机的安装点。
• 可调延长臂（蓝色延长臂）：允许横向和垂直调整以对齐相机的视点。

通过调整延长臂，可以实现与不同平台上手持设备的视觉一致性。可插入的指尖延长件确保尽管夹持器的尺寸和形状有所不同，但视觉视角保持一致。

为了确保手持设备和机器人安装设备之间的视觉一致性，制定视觉对齐指南：GoPro 鱼眼镜头图像的底部与夹持器指尖的底部对齐。此指南增强视觉一致性并确保两个设备上的相机定位正确。即使指尖延伸相同，夹持器尺寸的变化也会影响视觉对齐。可调节机械设计能够补偿这些位移，允许根据需要调整延伸臂以保持一致的观察视角。下图分别显示了手持设备和机器人安装设备上的 GoPro 相机捕获的视图。

选择 GoPro 相机是经过深思熟虑的。它的鱼眼镜头可以捕捉广角图像，可以取代传统上在 ACT 和 DP 等算法中使用的第一人称和第三人称平面相机的组合。初步观察表明，单个相机的鱼眼图像可以提供足够的时空信息，通过消除对多个相机的需求来简化硬件设置。这种简化对于实际应用中的移动机械臂尤其有益，因为在使用运动感觉教学方法时可能会出现遮挡，因此安装多个摄像头可能不切实际。用专门设计的限制器安装 RealSense T265 摄像头，以确保它与 GoPro 摄像头保持垂直。这种设计选择简化安装过程，并保证了两个摄像头之间的精确对齐，从而无需复杂的 SLAM 算法即可实现准确的姿势估计。

与原始 UMI 系统不同，省略夹持器侧面的镜子。对 UMI 的实验表明，镜子对系统性能的改进有限。省略它们可以在夹持器顶部保留宝贵的空间，用于集成其他传感器（例如触觉传感器），从而增强未来系统扩展的潜力。为了提高机器人安装设备的稳定性和耐用性，进行多项优化：

• 加固 GoPro-Robot 支架：增强结构完整性以减少振动。
• 使用碳纤维材料：增加强度同时减轻重量。
• 标准化公-母接口设计：允许连续连接延长臂以调整长度而不会产生明显振动（最多测试三个延长臂）。

这些增强功能可确保数据收集期间的可靠性能，并通过简化硬件调整来改善用户体验。

其配置允许所有用户共享一个标准化的手持设备，而机器人安装的设备可以调整以适应各种机械臂和夹持器型号。这种安排确保通过统一的手持设备进行数据收集的一致性，而可调节的机器人安装设备则增强了系统的多功能性。可以使用标准化接口修改延长臂的长度，其模块化设计便于轻松调整。这种设计方法可以应用于已经适应的五种主流型号以外的其他类型夹持器。这种适应性进一步推动了将系统与特定机器人硬件分离的目标，使更广泛的用户能够使用 Fast-UMI。

利用Fast-UMI 原型设备进行数据收集。

数据收集主要涉及从 GoPro 捕获鱼眼图像和从 RealSense T265 获取六自由度姿势数据。与依赖于复杂的基于 SLAM 姿势估计的原始 UMI 系统不同，用 T265 的内置跟踪功能直接获取末端执行器姿势数据，简化了数据处理流程。所有数据都通过有线连接传输，以确保稳定性和实时性能。

• GoPro 相机：配置为超广角模式的 GoPro Hero 9 相机以 1280×720 和 60 FPS 的分辨率捕捉鱼眼图像，提供广泛的视野以实现全面的场景覆盖。通过 Elgato HD60 X 采集卡实现实时图像传输。为了获得更高的分辨率，可以使用更先进的捕获卡；

Fast-UMI：一种可扩展且独立于硬件的通用操作接口

正文

请到「今天看啥」查看全文