成功率暴涨44%！VL-Nav：仅需一块车载芯片就能30帧/s实时运算的像素级导航

3D视觉之心 · 公众号 · · 2025-03-14 07:00

正文

作者 | Yi Du 编辑 | 深蓝AI

点击下方卡片，关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

当救援机器人冲进坍塌废墟时，传统导航系统还在像"近视眼找钥匙"——依赖预存地图或简单图像匹配。而最新研发的「VL-Nav」导航系统，让机器人在完全陌生环境中化身"福尔摩斯"：仅凭一句"寻找穿黑衣服的人"，就能实时解析像素级语义信息，像人类般边探索边推理。

这项技术的革命性在于"视觉+语言+直觉"的三维智慧。研究团队创造性地将AI绘画的像素级理解能力与生物好奇心机制结合，使机器人在扫描环境时，既能识别"黑色衣角闪过窗边"的细节，又能自主判断"该向左绕开倒塌书架还是向右探查门廊"。搭载在四轮机器人上的实测显示，面对仓库、公园等复杂场景，其成功率飙升至 86.3%，比传统算法提升44%，更惊人的是整套系统 仅需一块车载芯片就能30帧/秒实时运算 。这意味着未来救灾机器人可以像训练有素的搜救犬，仅凭一句指令就穿透浓烟毒雾，精准锁定幸存者位置。

©️【深蓝AI】编译

论文标题：VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning

论文作者：Yi Du, Taimeng Fu, Zhuoqun Chen, Bowen Li, Shaoshu Su, Zhipeng Zhao, Chen Wang

论文地址：https://arxiv.org/abs/2502.00931

项目地址：https://sairlab.org/vlnav/

▲图1｜ VL-Nav，这是一种具有空间推理能力的实时零样本视觉 - 语言导航方法，它将像素级视觉 - 语言特征和基于好奇心的探索相结合，用于移动机器人。 ©️【深蓝AI】编译

（a）走廊场景：轮式机器人在走廊中执行 “找到一个穿灰色衣服的人” 的任务。与经典基于前沿的方法（红线）和 VLFM（绿线）不同，VL-Nav（蓝线）利用 “灰色布料” 线索中的像素级视觉 - 语言（VL）特征进行空间推理，选择与 VL 相关性最高的目标点，并成功找到了失踪人员。价值图显示，“灰色布料” VL 线索优先考虑了右侧区域，该区域由黄色方块标记。

（b）公寓场景：机器人执行 “去那个高大的白色垃圾桶那里” 的任务。它在底部摄像头观测中发现了两个不同大小的白色垃圾桶。然而，它给较高的垃圾桶分配了更高的置信度分数（0.98），而给较矮的垃圾桶分配的分数为（0.48）。这些像素级 VL 特征被整合到空间分布中，以选择正确的目标点，引导机器人朝着较高的垃圾桶前进。

在未见过的环境中，按照人类指令进行高效导航对于自主机器人至关重要，应用范围从家庭助手到行星探索等都有涉及。在这种场景下，机器人任务是探索并识别由人类指示的目标，该研究将这一挑战定义为视觉语言导航（VLN）。假设有一名穿灰色衣服的人失踪，给出指令“找一个穿灰色衣服的人”，机器人不应进行随机探索。相反，它应该优先选择与语言线索有更强相关性的视觉特征方向，例如在视野中检测到“灰色衣物”。现实世界中的VLN要求导航系统能够： （1）解释逐像素的视觉语言特征；（2）在不同环境中适应并稳定执行；（3）在低功耗平台上实时运行。

然而，目前还没有VLN系统能够完全解决这三项能力。 现有的方法可以大致分为经典方法、端到端学习方法和模块化学习方法。 经典方法虽然高效，但难以整合视觉语言特征。端到端学习方法虽然有潜力，但计算开销大，容易在仿真中过拟合，并且在分布外场景中的泛化能力差。模块化学习方法则展示了在现实世界中的强大表现，但它们通常依赖大量的现实世界机器人训练数据，且缺乏类人推理能力。视觉语言模型（VLM）和大规模语言模型（LLM）的出现进一步增强了模块化导航方法。例如，Vision-Language Frontier Maps（VLFM）利用VLM从RGB图像中直接提取语言驱动的特征。这使得能够创建一个语义地图，引导基于人类语义知识的探索。然而，它们对计算密集型模型的依赖限制了其在低功耗平台上的可部署性。此外，VLFM在目标选择时过度依赖单一的图像级特征相似性，限制了其利用细粒度视觉语言线索的能力。

为了解决这一问题，该研究提出了视觉语言导航（ VL-Nav ）， 这是一种新型的导航框架，优化了低功耗机器人，能够在搭载计算机的情况下以30 Hz的频率实现零样本VLN。 VL-Nav在基于前沿和基于实例的目标点上应用空间推理。VL-Nav首先通过部分前沿检测从动态占用地图中生成基于前沿的目标点。它将搜索限制在可管理的视野范围内，从而减少计算开销。此外，结合了基于实例的目标点以模拟人类搜索模式，使机器人能够接近并验证潜在的目标物体，从而提高成功率。为了选择最有信息量的目标点，该研究引入了CVL空间推理技术。该技术首先使用高斯混合模型将逐像素视觉语言特征转换为空间评分分布。然后，根据此分布为每个目标点分配一个视觉语言语义分数。随后，应用好奇心驱动的加权，鼓励机器人探索未知区域，将这些分数调整为CVL分数。最终，具有最高CVL分数的目标点被选为目标点。此CVL空间推理过程确保所选目标点不仅与人类描述紧密对齐，还能引导机器人探索未知区域。

一旦目标被选定，VL-Nav利用经典规划器进行实时避障路径规划，从而实现对部分已知环境的无缝适应。通过将逐像素的视觉语言特征与通过新颖的CVL空间推理进行的好奇心驱动探索相结合，VL-Nav超越了所有基准方法，实现了智能导航，同时保持了在现实部署中的计算可行性。

该研究的主要贡献如下：

该研究提出了VL-Nav，一种为低功耗机器人优化的高效VLN系统，在搭载计算机的情况下以30 Hz的频率实现稳健的实时性能。
该研究通过整合逐像素的视觉语言特征和好奇心驱动的探索，赋予VL-Nav空间推理能力，从而使VLN更加高效。
该研究在四个现实环境中进行了全面评估，结果表明， VL-Nav在多种环境下的表现比以前的方法提高了44.15 %。

如图1 展示了VL-Nav 流程的概览，VL-Nav 处理的输入包括提示信息、RGB 图像、里程计位姿和激光雷达扫描数据。 视觉 - 语言（VL）模块进行开放词汇表的像素级检测，以识别与提示信息相关的区域和物体，生成基于实例的目标点。同时，地图模块进行地形分析并管理动态占用地图。然后，基于该占用地图识别出基于前沿的目标点，连同基于实例的点一起，形成候选点池。VL-Nav 利用空间推理从该候选点池中选择最有效的目标点用于路径规划。

■ 2.1. 滚动占用栅格地图

作者将环境表示为一个2D占用网格G，其中每个单元格可以是自由（0）、未知（−1）或占用（100）。在接收到新的传感器数据（合并的障碍物和地形云P）后， 作者使用以下步骤更新：

扩展地图： 如有需要，若任何新观察到的点位于当前地图边界之外，则扩展网格以保存历史数据。
清除过时障碍物： 对于机器人前方视野（FOV）内标记为占用的每个单元格，检查它是否仍对应于P中的某个点。任何“过时”的障碍物单元格将被重新标记为自由。
膨胀新的障碍物： 对于P中位于传感器范围R内的每个点，将相应的单元格标记为占用，并根据膨胀半径标记一个局部邻域。

这一步的主要目的是为后续的流程提供一张先验的地图，同时能够找到一些值的探索的区域，这个过程非常类似于SLAM的后端建图过程，如果有SLAM基础的读者小伙伴可以将其直接当成一个高频率更新地图的Mapping进程去理解即可，这个部分作为全文的前端对精度的要求是非常高的，作者在后续的实验部分也验证了该部分的精度。

■ 2.2. 基于实例的目标点

在完成前期的建图之后，下一步是看看当前的机器人观测中，是否存在想要找到的目标点，这一步实际上就是一个搜索的过程，而这里就是视觉语言模型大展身手的地方。视觉-语言探测器定期报告候选实例中心，形式为 (qx, qy, confidence)，其中 qx, qy 表示潜在目标实例的估计全局坐标，confidence 量化了该探测匹配目标实例的可能性。如果 confidence 大于检测阈值 τ det ，则保留该候选；否则，认为其不确定而丢弃。如果多个候选位于较近位置，则通过体素网格滤波器对保留的点进行下采样。

成功率暴涨44%！VL-Nav：仅需一块车载芯片就能30帧/s实时运算的像素级导航

正文

▲图1｜ VL-Nav，这是一种具有空间推理能力的实时零样本视觉 - 语言导航方法，它将像素级视觉 - 语言特征和基于好奇心的探索相结合，用于移动机器人。 ©️【深蓝AI】编译

▲图2｜全文方法总览©️【深蓝AI】编译

■ 2.1. 滚动占用栅格地图

■ 2.2. 基于实例的目标点

请到「今天看啥」查看全文

成功率暴涨44%！VL-Nav：仅需一块车载芯片就能30帧/s实时运算的像素级导航

正文

▲图1｜ VL-Nav，这是一种具有空间推理能力的实时零样本视觉 - 语言导航方法，它将像素级视觉 - 语言特征和基于好奇心的探索相结合，用于移动机器人。 ©️【深蓝AI】编译

▲图2｜ 全文方法总览©️【深蓝AI】编译

■ 2.1. 滚动占用栅格地图

■ 2.2. 基于实例的目标点

请到「今天看啥」查看全文

▲图2｜全文方法总览©️【深蓝AI】编译