专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

打破室外导航难题，Loc4Plan框架实现高效空间定位与路径规划！

智驾实验室 · 公众号 · · 2024-08-29 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

视觉与语言导航（VLN）是一项具有挑战性的任务，需要智能体在视觉环境中理解指令并导航到目的地。在室外VLN中，保持对指导完成部分的跟踪是一个主要挑战。为了减轻这个问题，以前的工作主要关注将自然语言与视觉输入相结合，但忽视了智能体在定位过程中的空间位置信息的关键作用。

在本工作中，作者首先探索了空间位置定位在Outdoor VLN定位中的重要作用，并受到人类导航的启发。在现实导航场景中，在规划前往目的地的路径之前，人类通常需要确定他们当前的位置。

这一观察强调了对导航过程中的空间定位的至关重要作用。在本工作中，作者提出了一种名为 定位与规划 （Loc4Plan）的新框架，用于将空间感知融入室外VLN任务的行动规划过程。

Loc4Plan背后的主要思想是，在规划决策动作之前，先执行空间定位，空间定位包括一个块感知的空间定位（BAL）模块和一个空间感知的行为计划（SAP）模块。具体来说，为了帮助智能体感知其环境中的空间位置，作者提出学习一个位置预测器，该预测器衡量智能体距离下一个交叉口有多远，以反映其位置，这是由BAL模块实现的。

定位过程之后，作者提出SAP模块将空间信息融入相应的指导，以地面实对应的指导并增强动作规划的准确性。在Touchdown和map2seq数据集上的广泛实验表明，所提出的Loc4Plan优于目前的方法。

1. Introduction

视觉与语言导航（VLN）是一项具有挑战性的任务，要求代理首先理解自然语言指令，然后在视觉环境中导航至目的地。代理位于环境中，并接收完整的导航指令，包括多个子指令，来说明如何逐步到达目的地。根据指令，代理决定其下一步行动。执行此动作会在环境内外改变代理的位置和/或方向，最终代理跟随描述的路线并在目标位置停下。可否认，在户外VLN中，跟踪哪一部分指令已完成是一项关键挑战。为了解决这个问题，各种方法已经被提出来了。这些方法主要专注于将自然语言与视觉输入联系起来，而忽视了在联系过程中代理的空间位置信息。

在此研究中，作者强调，在户外VLN任务中，代理在向地面实际位置之前应首先确定其视觉环境中的空间位置至关重要。例如，作者可以考虑一个现实生活的导航场景，当游客在陌生的区域寻求本地人的指导时。本地人通常首先确定游客的当前空间位置，然后提供前往目标地道的路线。这个观察强调了导航过程中的空间定位阶段的重要性。然而，以前的研究忽视了这种空间定位阶段的重要性和其对代理准确把握和执行导航指令的影响。虽然(Zhou等人，2017)编码了一些拓扑信息，如交叉口类型嵌入和方向变化，以增强代理的泛化能力，但它并没有大量探索空间定位在此过程中的关键作用。

基于人机导航的启发，作者首先探索了定位对户外VLN任务文本定位的影响。通常，在人类导航中，空间定位依赖于导航区域的拓扑知识。然而，户外VLN任务通常要求代理导航未见过的环境，在推理过程中，全面的周围环境拓扑信息通常无法获得。同时，代理的视觉观测感知受限于局部区域。为了帮助代理在环境中感知其空间位置，作者提出了一种空间预测器，该预测器衡量代理距离下一个交叉口有多远，从而反映其位置，通过一个块意识的空间定位(BAL)模块实现。在作者的模型中，“块”定义为相邻交叉口之间的区域，如图1所示。换句话说，每个块表示由两个相邻交叉口分隔的一条直街。BAL模块使代理在块 Level 而不是复杂的全局 Level 确定自己的位置，从而便于后续规划过程。

BAL模块中的位置自感知能力对文本定位有益，从而促进进一步的动作规划。因此，作者引入了空间感知动作规划(SAP)模块，将位置信息结合相应的指导信息进行关联，从而增强动作规划的精确性。具体而言，作者首先通过分层方式将空间感知状态表示(在BAL模块中获取)与提供的指令进行关联，确定代理需要遵循的对应指导，范围从句子 Level 到标记 Level 。具体而言，句子 Level 的关联利用了句子提供的更广泛的上下文理解和更丰富的语义。接下来，作者从这种句子 Level 的对齐中衍生出细粒度 Mask ，选择性地筛选出嵌入标记序列中的无关信息。与仅依赖词级本地化相比，作者的层次语义关联提供了对指令的全面理解，尤其是对广泛的和复杂的指令。基于识别出的对应指导，代理进一步将位置信息整合入动作决策规划。

以上两个模块为基础，作者构建了一个名为 Loc4Plan （Loc4规划）的创新学习框架，用于解决户外 VLN 任务，该框架可使智能体通过在确定下一个规划决策之前首先识别初始的空间定位来开发一种类似于人类的定位能力。受益于预期位置对智能体位置的了解以及对提供指令的综合理解，作者实现的 Loc4Plan 在可见和不可见场景下都达到了 Touchdown 和 map2seq 数据集的新状态最先进水平，相较于 ORAR 框架（Zhou 等，2017 年）（Chen 等，2018 年）（Zhou 等，2017 年）在 Touchdown（Chen等，2018年）和map2seq（Zhou等，2017年）数据集上的_测试未见_场景下，3.3%的 TC 和 4.8%的 TC 分别战胜。

综上所述，本文的主要贡献如下：

作者引入了一种名为 Loc4Plan （Loc4规划）的定位规划学习框架，用于解决户外 VLN 任务。Loc4Plan 通过在做出下一个规划决策之前首先确定智能体的当前位置来模拟人类的导航过程。
为了寻求位置感，作者在 VLN 任务中引入了块的概念，并提出了块感知的空间定位（BAL）模块，用于确定智能体在给定块内的位置，形成位置建模。
作者引入了空间感知动作规划（SAP）模块，该模块将空间定位信息集成到相应的指令中，以增强动作规划的精确性。

2. Related Works

Vision-and-Language Navigation

视觉与语言导航（VLN）任务要求智能体根据指令和以人为中心的观察来在3D模拟环境中导航至目标位置。关于室内VLN的研究包括探索特征表示交互方式,强化学习,场景图构建与室内VLN相比，户外VLN包含更丰富的词汇和更长的导航指令[4]，对代理在导航状态和长跨度指令之间进行跨模态对齐造成更大的挑战。

为解决这个挑战，大多数先前的研究工作直接将观察、轨迹和指令编码到基于LSTM的模型中。L2STOP[38]方法将停止与其他动作区分开来，以提高停止动作的定位。GA[3]使用条件注意力计算指令和图像的融合表示来预测动作。ORAR[26]通过添加交叉口类型的嵌入和方向角差来提高代理在未见场景下的泛化能力。此外，许多研究工作[2, 16, 41]采用Transformer架构进行导航，其中PM-VLN[2]引入了优先映射的预训练以实现时间序列的关联性。

然而，以往的研究忽视了导航中空间定位的重要性，它对代理准确解释和执行导航指令的能力具有显著影响。在本研究中，作者强调了在规划决策行动之前进行初始空间定位的重要性。作者引入了一个名为“先定位后规划”（Loc4Plan）的新颖框架，用于解决户外VLN任务中的挑战。

Textual Grounding in VLN

在视觉语言导航（VLN）任务中，当智能体接收到指示详细的整个导航路线时，将语言指导与下一个动作相关部分进行实体化非常关键。因此，开发在视觉语言导航研究中具有挑战性的有效技巧以将逐步导航提示的语言指导与相关部分关联起来，已经成为一个核心问题。这一挑战并非仅限于视觉语言导航，而且对于其他多模态任务也具有重要意义，正如一系列工作所探讨的那样[15, 17, 18, 28]。为了实现文本实体化，一种主要的途径是针对在指令和环境场景之间进行个体词语的跨模态实体化。另外一些研究[31, 41] implicitly采用基于注意力的Transformer进行多模态对齐。另一些研究专注于提高视觉和语言模态的表示，并提出了辅助任务以增强实体化。

然而，作者发现仅依靠词汇 Level 的局部化来规划是不够的，特别是在指示信息冗长的情况下。在本研究中，作者将观察和指示以分层方式进行对齐，从粗粒度到细粒度。

3. Locating Before Planning

Preliminary

1.问题定义 。给定自然语言指令，视觉语言导航（VLN）代理的任务是在指令提供的引导下，从起始位置导航到目的地。所有导航路径都是

2. 作者的提出的Loc4Plan的整体框架 。图像和文本编码器分别提取视觉观察和指令的特征。最初，块感知空间定位（BAL）用于利用轨迹的视觉表示和空间信息（即，交叉口类型嵌入，方向偏差）来定位代理相对于当前块的位置。然后，作者通过将空间感知状态表示与提供的指令以分层方式关联（从句子 Level 到标记 Level ），识别出代理需要遵循的相应引导。最后，代理将空间定位信息进一步集成到动作决策规划中。

**3. 基于有向图环境 ** 的框架。其中，和标记边。每个节点都与一个全景图像相关联，每个边都与一个角度相关。在每一步中，代理的状态定义为，其中是时刻的节点，是从上一个状态的节点到当前状态的节点的方向角度。给定当前导航状态，代理从环境中接收到相应的视觉观察。根据指令信息和观察到的视觉信息，代理从候选动作列表中推理出动作，然后执行所选动作，更新下一个状态。代理必须产生一个状态-动作对集，其中，以达到目标位置。

4. 块定义

作者定义一个“块”为环境图中的一个区域，该区域由相邻交叉口边界，行进路径只能单路径，没有交叉的可能性的限制。一个块的示例如下图所示。

Model Overview

图2展示了作者的定位与规划（Loc4Plan）框架概述。受到之前工作的启发（张等，2017年），该模型采用了一种序列到序列架构，输入是观察图像和导航指令，输出是一系列代理动作的序列。Loc4Plan框架包括一个块感知空间定位（BAL）模块和一个空间感知动作规划（SAP）模块。具体而言，BAL模块在块 Level 定位空间位置，这使得代理可以意识到其相对于当前块的位置。在定位过程后，SAP模块将利用BAL模块获取的空间信息来识别代理需要遵循的相应引导并做出动作预测。以下是作者框架的详细介绍。

Block-Aware Spatial Locating

在人类导航中，初始阶段涉及到在提供到达目标端点的路线之前确定用户当前位置，这需要先验知识 navigate 区域的地形。受到人类导航的启发，作者将空间定位集成到户外 VLN 任务中。然而，在户外 VLN 场景中，导航挑战在于要在未知地形上行驶，此时整个环境布局尚未揭示。为了解决这个问题，作者引入了一个适用于户外 VLN 的块感知空间定位（BAL）模块，该模块在块级上建立空间定位。作者使用交叉口作为分隔符来定义块，确保相邻交叉口之间的空间属于同一块。通过 BAL 模块促进的学习过程，智能体可以获得其当前位置的感知，即观察场中相对位置的块级表示。

形式上，与先前的成果（周等人，2017 年）（Zhou et al., 2017）一致，在第个时间步（timestep）节点上，作者结合动作嵌入，当前观测的视觉表示，当前节点的转角和交叉口类型嵌入到一个序列建模函数中，以获取当前状态表示。此外，作者引入长期转角作为一个新的输入特征，以模拟长程方向信息。节点当前状态可以通过：

其中是特征编码器，表示连接操作，是时间步的前状态，是表示节点在时间步上的输出边的数量的嵌入，是一种在范围内的值，编码相对于前一个时间步的转角。长期转角通过：

该方法中的角度转换是指连续步骤之间的角度变化，其中表示此计算涉及到的步骤数量。当特殊情况下发生时，作者令。引入了长时间角度的概念，将多个连续步骤的角度汇总在一起，认识到转向左或右的过程通常涉及多个单独的步骤。

得到的节点状态表示编码了之前的状态和当前时刻的可视和拓扑信息（例如，接头类型嵌入和方向角）。此外，作者希望代理可以意识到他们所达到的空间位置。为了解决这个问题，作者在块 Level 上定位代理的相对位置。具体来说，作者首先通过以下公式获取节点的空间感知状态表示：

其中是一个线性层，表示转置操作。作者假设累积了有利于空间定位的相关信息。

导航精度（BAL）的优化 为了确保空间感知表示可以了解与块内导航进度相关的信息，作者将输入到空间预测器，预测在当前块内进行的导航过程得分：

其中是一个线性层，表示代理相对于当前块的空间位置，其中0表示块的起始节点，1表示块的结束节点。块过程分数由MSE损失进行监督：

其中是完成整个导航所需的步次数。是块中节点数量计算的块进度分数，在时间步计算得出：

在此处，“ ”表示智能体向前推进到下一个交叉口节点的步数。而表示当前块中（不包括起始节点）的节点数量。例如，当智能体位于图1所示的位置时，，。

Spatial-Aware Action Planning

位置自认知能力在BAL中发展起来的对位置的自我认知能力对于文本定位是有利的，因此有助于进一步的行动规划。因此，作者引入了空间感知的行为规划（SAP）模块，该模块将空间定位信息（即在BAL模块中获得的空间感知状态表示）结合起来，以关联相应的指导，并增强行动规划的精度。具体来说，作者首先提出一个层次语义关联（HSA）子模块，通过将空间感知状态表示与提供的指令在一个层次结构上关联，从句子的细粒度到标记的粒度 Level ，来识别代理需要遵循的相应指导。

作者发现仅依赖词 Level 的位置是不够的，尤其是在指令复杂且广泛的情况下。因此，作者首先将空间感知的位置观测与句子的指令进行对齐，利用句子提供的更广泛的上下文理解和更丰富的语义。之后，作者设计了一个细粒度的 Mask ，并从这个句子的对齐中衍生出来的，用以在指令内选择性地过滤掉无相关信息，从而识别出当前步的目标相关指导。基于这一点，代理进一步将空间定位信息整合到行动决策规划中。

层次语义关联（HSA） 作者首先通过在层次结构上将空间感知状态表示与提供的指令进行关联来识别代理需要遵守的相应指导，从小到大粒度。

作者从句子 Level 开始将视觉和文本进行关联。具体来说，考虑具有L个单词的自然语言指令，作者使用句号分隔指令并获取句子 Level 的嵌入，其中是句子的数量。句子 Level 的嵌入是由多头交叉注意力（Shou等人，2017年） Query 空间感知状态表示来计算句子 Level 的上下文特征

打破室外导航难题，Loc4Plan框架实现高效空间定位与路径规划 ！

正文