NaVILA：视觉-语言-动作模型用于带腿机器人的导航

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-19 00:08

正文

24年12月来自UCSD、USC和Nvidia的论文“NaVILA: Legged Robot Vision-language- Action Model For Navigation”。

本文提出用带腿机器人（比如人形机器人）解决视觉-和-语言的导航问题，这不仅为人类提供了灵活的指挥方式，还允许机器人在更具挑战性和混乱的场景中导航。然而，将人类语言指令一直翻译成低级腿部关节动作并非易事。 NaVILA ，是一个两级框架，将视觉-语言-动作模型 (VLA) 与运动技能结合起来。NaVILA 不是直接从 VLA 预测低级动作，而是首先以语言的形式生成具有空间信息的中级动作（例如，“向前移动 75 厘米”），作为视觉运动 RL 策略的输入，以便执行。NaVILA 大大改进了现有基准测试中的先前方法。新开发的 Isaac Lab 基准测试也展示了同样的优势，具有更逼真的场景、低级控制和真实世界的机器人实验。

网页 https://navila-bot.github.io/

执行视觉-和-语言导航 (VLN) 的能力已成为现代机器人系统的基础组件。借助 VLN，机器人有望按照语言指令在未见过的环境中导航，而无需提供地图 (Anderson，2018；Wang，2019；Chaplot，2020a；b；c；Ramrakhya，2022)。这不仅为人类提供了更好的界面，而且还通过语言加强了跨场景泛化。本文进一步扩展了对有腿机器人（例如四足机器人或人形机器人）的 VLN 研究。使用腿代替轮子，可以让机器人在更具挑战性和混乱的场景中导航。如图所示，机器人可以穿过狭窄走道的杂乱实验室空间，在房子里从一个房间到另一个房间，以及应对户外具有挑战性的环境，例如有小石头、洞和槽的不平坦地形。

为了将语言转化为动作，机器人需要推理输入语言，并执行闭环规划以及低级控制。随着大语言模型 (LLM) 和视觉语言模型 (VLM) 的最新进展，已经开发了几种端到端的视觉-语言-动作 (VLA) 系统 (Brohan，2023；Kim，2024；Padalkar，2024)。这些系统使用大规模机器人操作演示对通用 VLM 进行微调，以产生用于控制的低级动作。虽然将推理和执行统一在一个模型中是一件非常有趣的事情，而且取得了令人鼓舞的成果，但值得深入探讨这个问题：除了量化的低级命令之外，还有更好的方法来表示动作吗？毕竟，LLM 和 VLM 主要用自然语言进行训练。当需要将推理转化为精确的非语言动作时，统一推理和执行就变得具有挑战性。

视觉导航。几十年来，视觉导航一直是机器人领域的长期研究课题（Moravec，1980；Elfes，1987；Thrun，2001；Gervet，2023）。传统方法通常依赖于预计算的地图（Thrun，1999）或使用深度传感器（Newcombe，2011）或单目 RGB 相机构建环境的几何地图，同时定位机器人（SLAM）（Davison，2007；Jones & Soatto，2011）。近年来，基于学习的模仿学习 (Chaplot，2018；Codevilla，2018) 和强化学习 (Mnih，2015；Lillicrap，2015) 方法不仅取得了令人印象深刻的成果，而且还实现了包括视觉-和-语言导航在内的更广泛的应用。

视觉-语言导航。视觉-语言导航 (VLN) 是具身智能的一个基本挑战，其中智体使用视觉提示和自然语言指令在复杂环境中导航。随着时间的推移，该领域发生了重大变化。早期研究 (Anderson，2018；Ku，2020；Qi，2020) 集中于 MP3D (Chang，2017) 等模拟环境中的离散导航，其中智体在导航图上预定义节点之间进行移动 (Fried，2018；Ma，2019；Tan，2019；Ke，2019；Hong，2020；Chen，2021b；2024d；Zhou，2024)。随着基础模型的进步，许多 VLN 系统通过利用大规模预训练模型（Li，2019；Majumdar，2020）和预训练技术（Guhur，2021；Wang，2023d；Kamath，2023）取得了显著的进步，在这种环境下接近人类水平的表现。然而，这种设置强调了高级决策，而忽略了底层运动控制的挑战。最近，研究（Raychaudhuri，2021；Chen，2022；Georgakis，2022；Chen，2024c；Zhang，2024）已转向使用 Habitat 等模拟器（Savva，2019）的连续环境，即 VLN-CE（Krantz，2020a）。这带来了更大的复杂性，因为智体必须执行中级操作（例如向前移动或旋转），而不是在节点之间移动。为了弥合离散导航和连续导航之间的差距，一些方法（Irshad，2021；Krantz & Lee，2022；An，2023；2024）使用模拟器预训练的航点模型（Hong，2022；Krantz，2021），这些模型可以预测智体周围的候选位置，并已显示出显着的性能提升。然而，由于它们依赖于特定于模拟器的数据，因此它们通常难以泛化。此外，这些模型预测的候选位置仅覆盖附近位置，不考虑低级运动规划或避障。

机器人基础模型。机器人基础模型旨在提供一个统一的框架，处理来自各种模态（例如视觉和语言）的输入，并直接输出动作以使机器人能够执行复杂的任务。现有研究（Brohan，2023；Team，2024；Kim，2024）在大型机器人数据集上进行训练以获得一般机器人策略，但主要侧重于操作任务。Doshi（2024）和 Yang（2024）针对不同的机器人任务提出了端到端的视觉-语言跨具身模型。最近，已经提出几种基础导航模型（Zeng，2024；Shah，2023；Sridhar，2024）。然而，它们主要关注目标导航，输入是简短的语言描述或目标图像。至于腿式机器人，Ding (2024) 提出了一个统一的模型，利用视觉和语言输入并生成可执行的低级动作。另一项工作（Chen，2024a；Ouyang，2024）专注于训练专门的策略作为技能库来处理特定动作，使用 VLM 或 LLM 作为控制器来决定执行哪种技能。同样，这些方法无法执行指令跟踪任务，因为它们很难理解对于普通导航至关重要的复杂指令。为了解决这个问题，提出一个专为一般视觉语言导航任务设计的 VLA 模型。模型生成高级动作命令，然后由低级策略执行。这种方法使机器人能够解释复杂的指令并有效地导航到目标。

所提出的VLA 模型 (NaVILA) ，将高级视觉语言理解和动作与低级运动控制相结合（如图所示）。NaVILA 采用 VLM 处理单视图图像，以自然语言生成航点指令。然后，这些指令由低级运动策略解释，将其转换为精确的关节运动，以实现实时机器人控制。VLM 的高级推理和运动策略执行能力之间的协同作用，使该方法能够在各种现实世界环境中展示出卓越的泛化和适应性。

VLN 需要将视频输入作为观察值进行处理。在 VLM 中处理视频输入的常用方法是通过视频编码器。然而，VLM 的最新进展很大程度上是由图像文本数据的可用性推动的。虽然人们一直在努力将这种成功扩展到视频编码器，但缺乏大量高质量的视频文本数据集限制了它们的预训练。为了应对这一挑战，选择基于图像的视觉-语言模型。这些模型表现出更强的泛化能力并拥有更广泛的知识，使它们更适合解决 VLN 中的泛化挑战。具体来说，以 VILA（Lin et al., 2024b; Wu et al., 2024; Fang et al., 2024; Xue et al., 2024; Ye et al., 2024; Huang et al., 2024a）为基础构建该方法，VILA 是一类高效的 VLM，可用于理解和生成。 VILA 的预训练已被证明对多图像推理特别有效，使其特别适合理解连续图像关系至关重要的 VLN 任务。

在视觉-语言导航任务中，来自不同时间步骤的图像有两个不同的用途。时间步骤 t 的图像表示当前观察，这对于 VLN 智体做出即时决策（例如，在十字路口右转或到达目标时停止）至关重要。另一方面，时间步骤 t 之前的帧是历史帧，可充当记忆库，帮助智体跟踪整体进度（例如，记住起始位置、推理已经访问过的地方并规划下一步）。像在 VILA 中所做的那样，以固定间隔均匀采样帧并不理想，因为它不会区分这两种类型的表示。因此，首先提取最近的帧 t 作为当前观察，然后从前面的 t-1 帧中均匀采样帧，确保始终包含第一帧。此外，由于当前和历史观察具有不同的作用，用文本提示来区分任务提示：如历史观察的视频，用于记忆帧，当前观察，用于最新帧。与 (Zhang et al., 2024) 不同，避免引入额外的特殊 tokens，因为这可能会使 LLM 的学习过程复杂化。相反，坚持设计原则，即将 LLM 的输入和输出都保留在语言域中，充分利用预训练 LLM 的推理能力。通过将这些用于历史和当前观察的tokens与导航指令相结合，构建一个导航任务提示。

如图所示VLA 框架概述。将紫色块表示从历史帧中采样的记忆 tokens，将红色块表示当前观察tokens。火苗🔥表示可训练参数。在实验中，测试 8 到 64 帧的配置。

有效的监督微调 (SFT) 数据对于开发强大的视觉-语言-动作模型至关重要。这样的模型应该专门用于具体任务，但要避免过拟合特定动作。它还应该能够很好地推广到现实世界场景，同时保留广阔的世界知识。得益于 NaVILA 的模块化框架设计，它提供了可扩展性和适应性，因此可以直接将新数据源集成到流水线中。这种灵活性能够考虑各种数据源，以提高导航的通用性。从四个角度设计 SFT 数据混合：(1) 来自真实视频的导航数据，(2) 来自模拟的导航数据，(3) 辅助导航数据，以及 (4) 通用 VQA 数据集。

NaVILA：视觉-语言-动作模型用于带腿机器人的导航

正文

请到「今天看啥」查看全文