专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
太格有物  ·  新品快讯|Birkenstock推出穆勒鞋新 ... ·  2 天前  
太格有物  ·  品牌故事|UNITED ... ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

NaVILA:视觉-语言-动作模型用于带腿机器人的导航

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-19 00:08

正文

24年12月来自UCSD、USC和Nvidia的论文“NaVILA: Legged Robot Vision-language- Action Model For Navigation”。

本文提出用带腿机器人(比如人形机器人)解决视觉-和-语言的导航问题,这不仅为人类提供了灵活的指挥方式,还允许机器人在更具挑战性和混乱的场景中导航。然而,将人类语言指令一直翻译成低级腿部关节动作并非易事。 NaVILA ,是一个两级框架,将视觉-语言-动作模型 (VLA) 与运动技能结合起来。NaVILA 不是直接从 VLA 预测低级动作,而是首先以语言的形式生成具有空间信息的中级动作(例如,“向前移动 75 厘米”),作为视觉运动 RL 策略的输入,以便执行。NaVILA 大大改进了现有基准测试中的先前方法。新开发的 Isaac Lab 基准测试也展示了同样的优势,具有更逼真的场景、低级控制和真实世界的机器人实验。

网页 https://navila-bot.github.io/


执行视觉-和-语言导航 (VLN) 的能力已成为现代机器人系统的基础组件。借助 VLN,机器人有望按照语言指令在未见过的环境中导航,而无需提供地图 (Anderson,2018;Wang,2019;Chaplot,2020a;b;c;Ramrakhya,2022)。这不仅为人类提供了更好的界面,而且还通过语言加强了跨场景泛化。本文进一步扩展了对有腿机器人(例如四足机器人或人形机器人)的 VLN 研究。使用腿代替轮子,可以让机器人在更具挑战性和混乱的场景中导航。如图所示,机器人可以穿过狭窄走道的杂乱实验室空间,在房子里从一个房间到另一个房间,以及应对户外具有挑战性的环境,例如有小石头、洞和槽的不平坦地形。


为了将语言转化为动作,机器人需要推理输入语言,并执行闭环规划以及低级控制。随着大语言模型 (LLM) 和视觉语言模型 (VLM) 的最新进展,已经开发了几种端到端的视觉-语言-动作 (VLA) 系统 (Brohan,2023;Kim,2024;Padalkar,2024)。这些系统使用大规模机器人操作演示对通用 VLM 进行微调,以产生用于控制的低级动作。虽然将推理和执行统一在一个模型中是一件非常有趣的事情,而且取得了令人鼓舞的成果,但值得深入探讨这个问题: 除了量化的低级命令之外,还有更好的方法来表示动作吗? 毕竟,LLM 和 VLM 主要用自然语言进行训练。当需要将推理转化为精确的非语言动作时,统一推理和执行就变得具有挑战性。

视觉导航 。几十年来,视觉导航一直是机器人领域的长期研究课题(Moravec,1980;Elfes,1987;Thrun,2001;Gervet,2023)。传统方法通常依赖于预计算的地图(Thrun,1999)或使用深度传感器(Newcombe,2011)或单目 RGB 相机构建环境的几何地图,同时定位机器人(SLAM)(Davison,2007;Jones & Soatto,2011)。近年来,基于学习的模仿学习 (Chaplot,2018;Codevilla,2018) 和强化学习 (Mnih,2015;Lillicrap,2015) 方法不仅取得了令人印象深刻的成果,而且还实现了包括视觉-和-语言导航在内的更广泛的应用。

视觉-语言导航 。视觉-语言导航 (VLN) 是具身智能的一个基本挑战,其中智体使用视觉提示和自然语言指令在复杂环境中导航。随着时间的推移,该领域发生了重大变化。早期研究 (Anderson,2018;Ku,2020;Qi,2020) 集中于 MP3D (Chang,2017) 等模拟环境中的离散导航,其中智体在导航图上预定义节点之间进行移动 (Fried,2018;Ma,2019;Tan,2019;Ke,2019;Hong,2020;Chen,2021b;2024d;Zhou,2024)。随着基础模型的进步,许多 VLN 系统通过利用大规模预训练模型(Li,2019;Majumdar,2020)和预训练技术(Guhur,2021;Wang,2023d;Kamath,2023)取得了显著的进步,在这种环境下接近人类水平的表现。然而,这种设置强调了高级决策,而忽略了底层运动控制的挑战。最近,研究(Raychaudhuri,2021;Chen,2022;Georgakis,2022;Chen,2024c;Zhang,2024)已转向使用 Habitat 等模拟器(Savva,2019)的连续环境,即 VLN-CE(Krantz,2020a)。这带来了更大的复杂性,因为智体必须执行中级操作(例如向前移动或旋转),而不是在节点之间移动。为了弥合离散导航和连续导航之间的差距,一些方法(Irshad,2021;Krantz & Lee,2022;An,2023;2024)使用模拟器预训练的航点模型(Hong,2022;Krantz,2021),这些模型可以预测智体周围的候选位置,并已显示出显着的性能提升。 然而,由于它们依赖于特定于模拟器的数据,因此它们通常难以泛化。 此外,这些模型预测的候选位置仅覆盖附近位置,不考虑低级运动规划或避障。

机器人基础模型 。机器人基础模型旨在提供一个统一的框架,处理来自各种模态(例如视觉和语言)的输入,并直接输出动作以使机器人能够执行复杂的任务。现有研究(Brohan,2023;Team,2024;Kim,2024)在大型机器人数据集上进行训练以获得一般机器人策略,但主要侧重于操作任务。Doshi(2024)和 Yang(2024)针对不同的机器人任务提出了端到端的视觉-语言跨具身模型。最近,已经提出几种基础导航模型(Zeng,2024;Shah,2023;Sridhar,2024)。然而,它们主要关注目标导航,输入是简短的语言描述或目标图像。至于腿式机器人,Ding (2024) 提出了一个统一的模型,利用视觉和语言输入并生成可执行的低级动作。另一项工作(Chen,2024a;Ouyang,2024)专注于训练专门的策略作为技能库来处理特定动作,使用 VLM 或 LLM 作为控制器来决定执行哪种技能。同样,这些方法无法执行指令跟踪任务,因为它们很难理解对于普通导航至关重要的复杂指令。为了解决这个问题,提出一个专为一般视觉语言导航任务设计的 VLA 模型。模型生成高级动作命令,然后由低级策略执行。这种方法使机器人能够解释复杂的指令并有效地导航到目标。


所提出的VLA 模型 (NaVILA) ,将高级视觉语言理解和动作与低级运动控制相结合(如图所示)。NaVILA 采用 VLM 处理单视图图像,以自然语言生成航点指令。然后,这些指令由低级运动策略解释,将其转换为精确的关节运动,以实现实时机器人控制。VLM 的高级推理和运动策略执行能力之间的协同作用,使该方法能够在各种现实世界环境中展示出卓越的泛化和适应性。


VLN 需要将视频输入作为观察值进行处理。在 VLM 中处理视频输入的常用方法是通过视频编码器。然而,VLM 的最新进展很大程度上是由图像文本数据的可用性推动的。虽然人们一直在努力将这种成功扩展到视频编码器,但缺乏大量高质量的视频文本数据集限制了它们的预训练。为了应对这一挑战,选择基于图像的视觉-语言模型。这些模型表现出更强的泛化能力并拥有更广泛的知识,使它们更适合解决 VLN 中的泛化挑战。具体来说,以 VILA(Lin et al., 2024b; Wu et al., 2024; Fang et al., 2024; Xue et al., 2024; Ye et al., 2024; Huang et al., 2024a)为基础构建该方法,VILA 是一类高效的 VLM,可用于理解和生成。 VILA 的预训练已被证明对多图像推理特别有效,使其特别适合理解连续图像关系至关重要的 VLN 任务。

在视觉-语言导航任务中,来自不同时间步骤的图像有两个不同的用途。时间步骤 t 的图像表示当前观察,这对于 VLN 智体做出即时决策(例如,在十字路口右转或到达目标时停止)至关重要。另一方面,时间步骤 t 之前的帧是历史帧,可充当记忆库,帮助智体跟踪整体进度(例如,记住起始位置、推理已经访问过的地方并规划下一步)。像在 VILA 中所做的那样,以固定间隔均匀采样帧并不理想,因为它不会区分这两种类型的表示。因此,首先提取最近的帧 t 作为当前观察,然后从前面的 t-1 帧中均匀采样帧,确保始终包含第一帧。此外,由于当前和历史观察具有不同的作用,用文本提示来区分任务提示:如历史观察的视频,用于记忆帧,当前观察,用于最新帧。与 (Zhang et al., 2024) 不同,避免引入额外的特殊 tokens,因为这可能会使 LLM 的学习过程复杂化。相反,坚持设计原则,即将 LLM 的输入和输出都保留在语言域中,充分利用预训练 LLM 的推理能力。通过将这些用于历史和当前观察的tokens与导航指令相结合,构建一个导航任务提示。

如图所示VLA 框架概述。将紫色块表示从历史帧中采样的记忆 tokens,将红色块表示当前观察tokens。火苗🔥表示可训练参数。在实验中,测试 8 到 64 帧的配置。


有效的监督微调 (SFT) 数据对于开发强大的视觉-语言-动作模型至关重要。这样的模型应该专门用于具体任务,但要避免过拟合特定动作。它还应该能够很好地推广到现实世界场景,同时保留广阔的世界知识。得益于 NaVILA 的模块化框架设计,它提供了可扩展性和适应性,因此可以直接将新数据源集成到流水线中。这种灵活性能够考虑各种数据源,以提高导航的通用性。从四个角度设计 SFT 数据混合:(1) 来自真实视频的导航数据,(2) 来自模拟的导航数据,(3) 辅助导航数据,以及 (4) 通用 VQA 数据集。







请到「今天看啥」查看全文