EgoMimic：通过以自我为中心的视频规模化模仿学习

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-11-20 00:15

正文

24年10月来自Georgia Tech和斯坦福的论文“EgoMimic: Scaling Imitation Learning via Egocentric Video”。

模仿学习所需演示数据的规模和多样性是一项重大挑战。EgoMimic，是一个全栈框架，通过人类具身数据（特别是与 3D 手部跟踪配对的以自我为中心人类视频）规模化操作。EgoMimic 通过以下方式实现这一目标：（1）一个符合人体工程学的 Project Aria 眼镜去捕获人类具身数据的系统，（2）一种低成本的双手操纵器，可最大限度地缩小与人类数据的运动学差距，（3）跨域数据对齐技术，以及（4）一种在人类和机器人数据上共同训练的模仿学习架构。与仅从人类视频中提取高级意图的先前研究相比，该方法将人类和机器人数据平等地视为具身演示数据，并从两个数据源中学习统一的策略。与最先进的模仿学习方法相比，EgoMimic 在一系列多样化的长视界、单臂和双手操作任务上取得了显着的改进，并能够泛化到全新的场景。最后，展示 EgoMimic 的良好规模化趋势，其中添加 1 小时的额外手部数据比添加 1 小时的额外机器人数据更有价值。

如图所示：EgoMimic 解锁人类具身数据（以自我为中心的视频与 3D 手势轨迹配对），作为模仿学习的全新可规模化数据源。可以在任何地方捕获这些数据，无需机器人，只需戴上一副 Project Aria 眼镜，用自己的双手执行操作任务即可。EgoMimic 弥合人类具身数据（左）和传统机器人遥控数据（右）之间运动学、分布和外观的差异，学习统一的策略。与单独使用机器人数据相比，人类具身数据可将任务性能提高 34-228%，并且能够泛化到新目标甚至场景。

为了扩大机器人数据规模，数据收集系统最近取得了进展。例如，ALOHA [1]、[2] 和 GELLO [3] 是用于收集遥控数据直观的领导者-追随者控件。其他研究则选择开发手持式夹持器，在没有机器人的情况下收集数据 [4]。尽管取得了这些进展，但通过这些系统收集的数据仍然需要专门的硬件和积极的演示努力。假设实现互联网规模机器人数据的关键步骤是被动数据收集。正如互联网并非为收集数据来训练大型视觉和语言模型而构建一样，理想的机器人数据系统应允许用户在无意中生成感觉运动行为数据。

人类视频，尤其是从自我中心视角拍摄的视频，是实现被动数据规模化的理想数据来源。这些数据与机器人数据紧密结合，因为它提供了用于视觉的自我中心摄像头、用于动作的 3D 手部跟踪和用于定位的机载 SLAM。能够捕获此类数据的消费级设备的出现，包括扩展现实 (XR) 设备和配备摄像头的“智能眼镜”，为大规模被动数据收集开辟了前所未有的机会。虽然最近的研究已经开始利用人类视频数据，但他们的方法仅限于从视频中提取高级意图信息来构建指导低级条件策略的规划器 [5][6]。因此，这些系统仍然受到低级策略性能的限制，这些策略通常仅基于遥控数据进行训练。

要真正利用人类数据来衡量机器人的性能，不应该将人类视频视为需要单独处理的辅助数据源。相反，应该利用以自我为中心的人类数据和机器人数据之间的内在相似性，将它们视为连续的具身数据源中的平等部分。无缝地从两个数据源学习需要全栈创新，从统一两个来源数据的数据收集系统，到可以实现这种跨具身策略学习的模仿学习架构。

EgoMimic 是一个全栈框架，可以捕获和学习以自我为中心的人类具身数据和机器人数据。如图所示：人体数据系统使用 Aria 眼镜捕捉自我为中心的 RGB，并使用其侧面 SLAM 摄像头定位设备并跟踪手部。该机器人由两个 Viper X 从动臂组成，配有 Intel RealSense D405 腕部摄像头，由两个 WidowX 引导臂控制。机器人使用相同的 Aria 眼镜作为主视觉传感器，以帮助最大限度地减少摄像头之间的间隙。

数据收集系统和硬件设计

Aria 眼镜用于自我中心演示收集。理想的人类数据系统需要捕捉有关场景的丰富信息，同时保持被动可规模化。这样的系统应该是可穿戴的、符合人体工程学的、捕捉宽视场、跟踪手部位置、设备姿势等。

EgoMimic 通过在 Aria 项目眼镜 [7] 的基础上构建来填补这一空白。Aria 眼镜是用于捕捉多模态自我中心数据的头戴式设备。该设备采用符合人体工程学的眼镜外形，重量仅为 75 克，可长时间佩戴并进行被动数据收集。利用前置宽视场 RGB 摄像头进行视觉观察，利用两个单色场景摄像头进行设备姿势和手部跟踪。特别是，侧面场景摄像头即使移出主 RGB 摄像头的视野，也能跟踪手部姿势，大大减轻了人类在连续操作任务中自然倾向于将头部和视线移到手部前方所带来的挑战。

此外，Aria 项目 [44]、[45] 正在进行大规模数据收集工作，并通过积极的研究合作计划向学术界广泛提供这些设备。将来，系统可以使用户将他们收集的数据与这些大型数据集无缝合并。最终，提出一个系统，它能够进行被动但功能丰富的人体数据收集，以帮助扩大机器人操作。

低成本双手操纵器。为了有效利用以自我为中心的人类具身数据，机器人操纵器应该能够以类似于人类手臂运动的方式移动。先前的研究通常依赖于桌面安装的操纵器，例如 Franka Emika Panda [46]。虽然这些系统有能力，但它们在运动学方面与人类手臂有很大不同。此外，出于安全考虑，它们的重量和惯性很大，需要缓慢、谨慎地移动，这在很大程度上阻止了它们以与人类相当的速度执行操作任务。为了解决这些限制，专门设计一款重量轻、灵活且经济高效的双手操作器。机器人装置受到 ALOHA 系统 [1] 的启发，包括两个 6 自由度 ViperX 300 S 臂，配有 Intel Realsense D405 腕式摄像头，以倒置配置安装在高度可调的装置上作为躯干（如上图所示），在运动学上模仿人类的上半身。ViperX 臂很瘦，尺寸与人类手臂相对相似，这有助于提高它们的灵活性。整套装置的组装成本不到 1,000 美元（不包括 ViperX 臂）（BOM 将提供）。还建造一个领导者机器人装置来收集远程操作数据，类似于 ALOHA [1]。

此外，由于该方法从以自我为中心的人类和机器人数据中联合学习视觉策略，因此必须调整视觉观察空间。因此，除了通过数据后处理进行对齐之外，还通过使用第二副 Aria 眼镜作为机器人的主传感器来直接匹配相机硬件，将其直接安装在躯干顶部，位置与人眼相似。这能够减轻与相机设备相关的观察域差距，包括 FOV、曝光水平和动态范围。

数据处理和域对齐

为了从人类和机器人数据中训练统一的策略，EgoMimic 弥补了三个关键的人-机器人差距：（1）统一动作坐标系，（2）对齐动作分布，以及（3）减轻视觉外观差距。

原始数据流。从硬件设置中传输原始传感器数据。人类和机器人佩戴的 Aria 眼镜会生成以自我为中心的 RGB 图像流。此外，机器人还会生成两个腕式摄像头流。对于本体感觉，用 Aria 机器感知服务 (MPS) [47] 来估计双手的 3D 姿势 Hp。机器人本体感觉数据，包括其末端执行器姿势 Rp 和关节位置 Rq（包括夹钳关节位置）。此外，还收集了遥控机器人的关节空间动作 Raq 数据。

统一的人-机器人数据坐标系。机器人动作和本体感受数据通常使用固定参考系（例如，相机或机器人基座）。然而，来自移动相机的以自我为中心的手部数据打破了这一假设。为了统一联合策略学习的参考系，将人手和机器人末端执行器轨迹转换为以相机为中心的稳定参考系。遵循预测动作块 [11]、[1] 的想法，旨在为人手和机器人末端执行器构建动作块 a^p/t:t+h。为了简化符号，描述可以泛化到双臂的单臂情况。原始轨迹是一系列 3D 姿势 [p^Ft/t,p^Ft+1t/t+1,...p^Ft+h/t+h]，其中 Fi 表示估计 pi 时相机的坐标系。对于机器人来说，Fi 保持不变，但对于以人类为中心的数据来说，Fi 会不断变化。目标是通过将轨迹中的每个位置转换为观察相机框架 Ft 来构建 a^p/t:t+h。这允许策略在不考虑未来相机运动的情况下预测动作。对于人类数据，用 MPS 视觉惯性 SLAM 来获得世界框架中的 Aria 眼镜姿势 T^W/Fi，并转换动作轨迹。如上图（左上）显示了一个示例轨迹。使用通过手-眼标定估计的固定相机框架，对机器人数据进行类似转换。通过创建统一的参考框架，使策略能够从动作监督中学习，无论它们是来自人类视频还是遥控演示。

对齐人-机器人姿势分布。尽管通过硬件设计和数据处理对齐了手部和机器人数据，但仍然观察到收集的演示中手部和机器人末端执行器姿势分布的差异。这些差异源于人-机器人系统之间的生物力学差异、任务执行变化和测量精度差异。如果不缩小这一差距，该策略倾向于为两个数据源学习单独的表示 [48]、[49]，从而阻止使用人类数据进行性能规模化。为了解决这个问题，对来自每个数据源的末端执行器（手）姿势和动作分别应用高斯归一化，如图所示。呼应 [49]，这种简单的技术在经验上是有效的，尽管在未来存在诸如动作量化 [13] 之类的替代方案。

弥合视觉外观差距。尽管对齐用于捕获机器人和人类数据的传感器硬件，但人手和机器人之间仍然存在很大的视觉外观差距。先前的研究已经承认了这一差距，并试图在视觉观察中遮挡或移除操纵器 [50]，[51]。遵循类似的想法，通过 SAM [52] 掩码掉手和机器人，并覆盖一条红线以指示末端执行器方向（如上图所示）。SAM 点提示由转换为图像帧的机器人末端执行器和人类手部姿势生成。

训练人-机器人联合策略

现有方法通常选择分层架构，其中基于人类数据训练的高级策略决定输出机器人动作的低级策略 [5]、[6]。然而，这种方法本质上受到低级策略性能的限制，低级策略不会直接受益于大规模人类数据。为了解决这一限制，提出一种简单的架构（如图所示），该架构从统一数据中学习并促进共享表示。模型建立在 ACT [1] 的基础上，但设计是通用的，可以应用于其他基于 Transformer 的模仿学习算法。

EgoMimic：通过以自我为中心的视频规模化模仿学习

正文

请到「今天看啥」查看全文