EgoMimic：通过以自我为中心的视频扩展模仿学习

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-25 00:07

正文

24年10月来自Georgia Tech和斯坦福的论文“EgoMimic: Scaling Imitation Learning via Egocentric Video”。

模仿学习所需的演示数据规模和多样性是一项重大挑战。EgoMimic，是一个全栈框架，可通过人类具身数据（特别是与 3D 手部跟踪配对的自我为中心人类视频）扩展操作。EgoMimic 通过以下方式实现这一目标：（1）使用符合人体工程学的 Project Aria 眼镜捕获人类具身数据的系统，（2）一种低成本的双手操纵器，可最大限度地缩小与人类数据的运动学差距，（3）跨域数据对齐技术，以及（4）一种在人类和机器人数据上共同训练的模仿学习架构。与仅从人类视频中提取高级意图的先前研究相比，该方法将人类和机器人数据平等地视为具身演示数据，并从两个数据源中学习统一的策略。与最先进的模仿学习方法相比，EgoMimic 在一系列多样化的长视界、单臂和双手操作任务上取得了显着的改进，并能够推广到全新的场景。最后，EgoMimic 有利扩展，其中添加 1 小时的额外手部数据比添加 1 小时的额外机器人数据更有价值。

如图所示：EgoMimic 解锁人类具身数据（以自我为中心的视频与 3D 手势轨迹配对），作为模仿学习的全新可扩展数据源。可以在任何地方捕获这些数据，无需机器人，只需戴上一副 Project Aria 眼镜，用自己的双手执行操作任务即可。EgoMimic 弥合人类具身数据（左）和传统机器人遥控数据（右）之间的运动学、分布和外观差异，可学习统一的策略。与单独使用机器人数据相比，人类具身数据可将任务性能提高 34-228%，并能够泛化到新目标甚至场景。

端到端模仿学习在学习复杂的操作任务中表现出色，但在面对新场景和新任务时仍然很脆弱。借鉴计算机视觉和自然语言处理的最新成功，假设要使学习的策略实现广泛的泛化，必须大幅扩大训练数据量。虽然这些相邻领域受益于互联网数据，但机器人技术缺乏这样的等效数据。

为了扩大机器人数据量，数据收集系统最近取得了进展。例如，ALOHA [1]、[2] 和 GELLO [3] 是用于收集遥控数据的直观领导者-追随者控件。其他研究选择开发手持式夹持器，在没有机器人的情况下收集数据 [4]。尽管取得了这些进展，但通过这些系统收集的数据仍然需要专门的硬件和积极的演示努力。假设实现互联网规模机器人数据的关键步骤是被动数据收集。正如互联网并非为收集数据来训练大型视觉和语言模型而构建一样，理想的机器人数据系统应允许用户在无意中生成感觉运动行为数据。

人类视频，尤其是从自我中心视角捕获的视频，是实现被动数据可扩展性的理想数据来源。这些数据与机器人数据紧密结合，因为它提供了用于视觉的自我中心摄像头、用于动作的 3D 手部跟踪和用于定位的机载 SLAM。能够捕获此类数据消费级设备的出现，包括扩展现实 (XR) 设备和配备摄像头的“智能眼镜”，为大规模被动数据收集开辟了前所未有的机会。虽然最近的研究已经开始利用人类视频数据，但他们的方法仅限于从视频中提取高级意图信息来构建指导低级条件策略的规划器 [5]、[6]。因此，这些系统仍然受到低级策略性能的限制，这些策略通常仅基于遥控数据进行训练。

要真正利用人类数据来衡量机器人的性能，不应该将人类视频视为需要单独处理的辅助数据源。相反，应该利用以自我为中心的人类数据和机器人数据之间的内在相似性，将它们视为连续具身数据源中的平等部分。无缝地从两个数据源学习需要全栈创新，包括从统一两个来源数据的数据收集系统到可以实现这种跨具身策略学习的模仿学习架构。

模仿学习：模仿学习 (IL) 已用于执行各种接触丰富的操作任务 [8]、[9]、[10]。IL 的最新进展促成像素-到-动作 IL 模型的开发，该模型将原始视觉输入直接映射到低级机器人控制 [1]、[11]。这些视觉 IL 模型已经展示反应策略 [12]、[5]。扩展这些模型已在 RT1 和 RT2 等显示出强大的泛化能力 [13]、[14]。然而，这些方法仍然需要大量劳动力和资源，例如 RT1 需要 17 个月的数据收集和 13 个机器人 [13]。

从视频演示中学习：为了满足像素-到-动作 IL 算法的数据要求，许多最近的方法都利用了人类数据，因为它具有高度的可扩展性。人类数据用于不同的抽象层次，其中一些工作使用来自互联网规模数据集的人类视频来预训练视觉表示 [15]、[16]、[17]。其他作品使用人类视频通过点轨迹预测、像素空间中的中间状态hallucination或affordance预测更明确地理解场景动态 [18]、[19]、[6]、[20]、[21]。最后，最近的工作使用手部轨迹预测作为预测机器人动作的智体 [5]。虽然这些方法利用手部数据，但它们通常具有单独的模块来处理手部和机器人数据。

数据收集系统：已经使用各种方法来扩展机器人数据。诸如 Space Mouse 之类的低成本设备提供了对机器人操纵器灵敏且细粒度的遥操作 [22]、[10]、[23]、[11]、[24]。进一步的研究通过虚拟现实系统（如 VR 耳机）改善直观控制 [25]、[26]、[27]、[28]、[29]。最近的系统（如 ALOHA 和 GELLO）通过领导者-跟随者遥操作界面 [1]、[3] 或外骨骼 [30]、[31] ，提高了低成本和细粒度双手操作任务的人体工程（ergonomics）。其他研究尝试使用 3D 动作跟踪等丰富信息收集人类体现数据，但现有系统面临权衡。那些利用丰富信息的系统要么不便携（例如静态相机 [32]、[5]、[33]、[34]），要么不符合人体工程学（例如需要手持式夹持器 [4]、[35] 或随身相机 [36]、[37]），这阻碍了数据收集系统的被动可扩展性。

跨具身策略学习：跨具身学习的进展表明，在具有不同机器人具身的数据集上，所训练的大模型更具通用性 [39]。一些方法旨在通过观察重投影 [40]、动作抽象 [41] 和以具身化为条件的策略 [42] 来弥合具身化差距。最近的研究将跨具身化学习视为域适应问题 [43]。人类数据应该被视为迁移学习中的另一种具身化。

EgoMimic 是一个全栈框架，可以捕获和学习以自我为中心的人类具身数据和机器人数据。

Aria 眼镜用于自我中心演示收集。理想的人类数据系统需要捕捉有关场景的丰富信息，同时保持被动可扩展性。这样的系统应该是可穿戴的、符合人体工程学的、捕捉宽视场、跟踪手部位置、设备姿势等。

EgoMimic 通过在 Project Aria 眼镜 [7] 的基础上构建来填补这一空白。Aria 眼镜用于捕捉多模态自我中心数据的头戴式设备。该设备采用符合人体工程学的眼镜外形，重量仅为 75 克，可长时间佩戴并进行被动数据收集。该工作利用前置宽视场 RGB 摄像头进行视觉观察，利用两个单色场景摄像头进行设备姿势和手部跟踪（样本数据如图所示）。特别是，侧面场景摄像头，即使手部移出主 RGB 摄像头的视野，也能跟踪手部姿势，大大减轻了人类在连续操作任务中自然倾向于将头部和视线移到手部前方所带来的挑战。

此外，Aria 项目 [44]、[45] 正在进行大规模数据收集工作，并通过积极的研究合作计划向学术界广泛提供这些设备。将来，该系统可以使用户将他们收集的数据与这些大型数据集无缝合并。最终，提出一个系统，它能够进行被动但功能丰富的人体数据收集，帮助扩大机器人操作。

低成本双手操纵器。为了有效利用以自我为中心的人类具身数据，机器人操纵器应该能够以类似于人类手臂运动的方式移动。先前的研究通常依赖于桌面安装的操纵器，例如 Franka Emika Panda [46]。虽然这些系统有能力，但它们在运动学方面与人类手臂有很大不同。此外，出于安全考虑，它们的重量和惯性很大，需要缓慢、谨慎地移动，这在很大程度上阻止了它们以与人类相当的速度执行操作任务。为了解决这些限制，专门设计一款重量轻、灵活且经济高效的双手操作器。该机器人装置受到 ALOHA 系统 [1] 的启发，包括两个 6 自由度 ViperX 300 S 臂，配有 Intel Realsense D405 腕式摄像头，倒置安装在高度可调的装置上作为躯干（上图所示），在运动学上模仿人类的上半身。ViperX 臂很瘦，尺寸与人类手臂相对相似，这有助于提高它们的灵活性。整套装置的组装成本不到 1,000 美元，不包括 ViperX 臂（将由物料 BOM 提供）。还建造一个领导者机器人装置来收集遥操作数据，类似于 ALOHA [1]。

此外，由于该方法从以自我为中心的人类和机器人数据中联合学习视觉策略，因此必须调整视觉观察空间。因此，除了通过数据后处理进行对齐之外，还使用第二副 Aria 眼镜作为机器人的主传感器来直接匹配相机硬件，将其直接安装在躯干顶部，位置与人眼相似（如上图所示）。这样能够减轻与相机设备相关的观察域差距，包括 FOV、曝光水平和动态范围。

为了从人类和机器人数据中训练统一的策略，EgoMimic 弥补三个关键的人机差距：（1）统一动作坐标系，（2）调整动作分布，以及（3）缩小视觉外观差距。

原始数据流。从硬件设置中传输原始传感器数据。人类和机器人佩戴的 Aria 眼镜可生成以自我为中心的 RGB 图像流。此外，机器人还会生成两个腕部摄像头流。对于本体感受，利用 Aria 机器感知服务 (MPS) [47] 来估计双手的 3D 姿势 H/p。机器人本体感受数据，包括其末端执行器姿势 R/p 和关节位置 R/q（包括夹钳关节位置）。此外，还收集遥控机器人数据的关节空间动作 R/a^q。

统一人机数据坐标系。机器人动作和本体感受数据通常使用固定参考系（例如，摄像头或机器人基座）。然而，来自移动摄像机以自我为中心的手部数据打破这一假设。

为了统一联合策略学习的参考框架，将人手和机器人末端执行器轨迹转换为以摄像机为中心的稳定参考框架。遵循预测动作块 [11]、[1] 的想法，旨在为人手和机器人末端执行器构建动作块 a^p/t:t+h。为了简化符号，描述推广到双臂的单臂情况。原始轨迹是一系列 3D 姿势 [p^F/t, p^F/t+1, ... p^F/t+h]，其中 F/i 表示估计 p/i 时相机坐标框架。F/i 对于机器人保持不变，但对于人类以自我为中心的数据不断变化。其目标是将轨迹中的每个位置转换为观察相机框架 F/t 来构建 a^p/t:t+h。这允许策略在不考虑未来相机运动的情况下预测动作。对于人类数据，使用 MPS 视觉-惯性 SLAM 在世界框架中获得 Aria 眼镜姿势 T^W/F/i 并转换动作轨迹：

上图（左上）显示示例轨迹。机器人数据使用通过手-眼标定估计的固定相机框架进行类似转换。通过创建统一的参考框架，使策略能够从动作监督中学习，无论它们是来自人类视频还是遥控演示。

对齐人机姿态分布。尽管通过硬件设计和数据处理对齐了手部和机器人数据，但在收集的演示中手部和机器人末端执行器姿势分布存在差异。这些差异源于人机系统之间的生物力学差异、任务执行变化和测量精度差异。如果不缩小这一差距，该策略往往会为两个数据源 [48]、[49] 学习单独的表示，从而阻止使用人类数据进行性能扩展。为了解决这个问题，对来自每个数据源的末端执行器（手部）姿势和动作分别应用高斯正则化，如图所示。呼应 [49]，这种简单的技术在经验上是有效的，未来会探索诸如动作量化 [13] 之类的替代方案。

弥合视觉外观差距。尽管对齐传感器硬件以捕获机器人和人类数据，但人类手和机器人之间仍然存在很大的视觉外观差距。先前的研究已经承认了这一差距，并试图在视觉观察中遮挡或移除机械手 [50]，[51]。遵循类似的想法，通过 SAM [52] 遮盖住手和机器人，并覆盖一条红线以指示末端执行器方向（如上图所示）。SAM 点提示由机器人末端执行器和人类手部姿势转换为图像帧生成。

现有方法通常选择分层架构，其中基于人类数据训练的高级策略决定输出机器人动作的低级策略 [5]、[6]。然而，这种方法本质上受到低级策略性能的限制，低级策略不会直接受益于大规模人类数据。为了解决这一限制，提出一种简单的架构（如图所示），它可以从统一数据中学习并促进共享表示。该模型建立在 ACT [1] 的基础上，但设计是通用的，可以应用于其他基于 Transformer 的模仿学习算法。

这种统一方法的一个关键挑战是机器人动作空间的选择。虽然机器人末端执行器的姿势在语义上比机器人关节位置更类似于人类手部姿势，但由于 6 DoF ViperX 臂提供的解决方案冗余度较低，因此很难通过基于笛卡尔的控制器（例如差分 IK）用末端执行器姿势控制机器人。从经验上讲，机器人经常在轨迹中遇到奇点或非平滑解。因此，选择关节空间控制（即使用预测的关节动作 aˆq/t:t+h 来控制机器人），同时利用姿势空间预测来学习人机联合表征。注：姿势和关节空间预测的需求特定于机器人硬件，而更有能力支持末端执行器空间控制的机器人可以消除预测关节空间动作的需要。

具体来说，除了两个浅输入和输出头之外，策略中的所有参数都是共享的。输入头在传递给策略Transformer之前转换视觉和本体感受嵌入。策略Transformer处理这些特征，两个输出头将Transformer的潜输出转换为姿态或关节空间预测。姿势损失通过 H/aˆp 和 R/aˆp 监督人类和机器人数据，而关节动作损失仅监督机器人数据 R/aˆq 。由于两个分支仅由一个线性层分隔，有效地迫使模型学习两个域的联合表示。该算法总结在算法 1 中。

下表总结了用于训练的数据：

选择了一组长期现实世界任务来评估主张。任务需要精确的对准、复杂的动作和双手协调（如图所示）。

EgoMimic：通过以自我为中心的视频扩展模仿学习

正文

请到「今天看啥」查看全文