专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ICLR'25 | 从模拟到现实！北航重磅开源OpenUAV！更智能的飞行决策！

3D视觉工坊 · 公众号 · · 2024-10-17 10:37

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章旨在解决现实环境中无人机（UAV）视觉导航（VLN）面临的挑战，通过开发 OpenUAV 平台，提供真实的环境、飞行模拟和全面的算法支持，构建面向目标的真实 UAV VLN 数据集，并提出 UAV-Need-Help 基准，为无人机在复杂 VLN 场景中提供指导。文章还提出了一种 UAV 导航大型语言模型（LLM）及基于回溯采样的数据增强策略，这两者有效提升了基于轨迹的 VLN 任务性能，从而建立了一个统一的框架，推动了模拟与现实 UAV 导航应用之间的融合，提出了未来在复杂环境中提高无人机自主导航能力和增强从模拟到现实部署的迁移能力的研究方向。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：TOWARDS REALISTIC UAV VISION-LANGUAGE NAVIGATION: PLATFORM, BENCHMARK, AND METHODOLOGY

作者：Xiangyu Wang, Donglin Yang等

作者机构：Institute of Artificial Intelligence, Beihang University等

论文链接：https://arxiv.org/pdf/2410.07087

2. 摘要

开发能够根据语言指令和视觉信息导航到目标位置的智能体（即视觉-语言导航，简称VLN）已经引起了广泛的关注。大多数研究集中在地面智能体上，而基于无人机（UAV）的视觉-语言导航研究相对较少。最近针对无人机的视觉-语言导航研究大多采用基于地面的VLN设置，依赖预定义的离散动作空间，忽略了智能体运动动态和地面与空中环境之间导航任务复杂性的固有差异。为了解决这些差异和挑战，我们从平台、基准和方法三个方面提出了解决方案。为了在VLN任务中实现现实的无人机轨迹模拟，我们提出了OpenUAV平台，该平台具有多样化的环境、逼真的飞行控制和广泛的算法支持。此外，我们在此平台上构建了一个目标导向的VLN数据集，包含约12,000条轨迹，成为首个专门为真实无人机视觉-语言导航任务设计的数据集。为了应对复杂空中环境带来的挑战，我们提出了一个名为UAV-Need-Help的辅助引导无人机目标搜索基准，它提供不同级别的引导信息，帮助无人机更好地完成现实的VLN任务。我们还提出了一种UAV导航大模型（LLM），该模型在给定多视角图像、任务描述和辅助指令的情况下，利用多模态大模型的理解能力联合处理视觉和文本信息，并进行分层轨迹生成。我们的方法评估结果显著优于基准模型，然而与人类操作员取得的结果仍存在较大差距，凸显了UAV-Need-Help任务的挑战性。项目主页可访问：https://prince687028.github.io/OpenUAV。

3. 效果展示

我们方法的目标搜索结果可视化。前两行展示了我们的无人机成功遵循指令。值得注意的是，第三到第五张图展示了无人机执行转向机动，导致无人机视角的变化。第三行展示了一个失败的例子，描绘了无人机在森林场景中与树木发生碰撞。

4. 主要贡献

OpenUAV 平台开发 ：构建了一个提供真实环境、飞行模拟和全面算法支持的 OpenUAV 平台，以应对 UAV 视觉导航（VLN）的挑战。
目标导向的数据集 ：构建了一个以目标为导向的现实 UAV VLN 数据集，增强了用于复杂 VLN 场景中的 UAV 导航能力。
UAV-Need-Help 基准 ：提出了 UAV-Need-Help 基准，为 UAV 提供指导，帮助其在复杂的 VLN 场景中导航。
UAV 导航 LLM ：提出了一种 UAV 导航大语言模型（LLM），与回溯采样的数据增强策略结合，显著提高了现实轨迹基础 VLN 任务的性能。
统一框架的建立 ：为现实 UAV VLN 研究建立了统一框架，促进了模拟与实际应用之间的融合。推荐课程：零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战] 。
未来研究方向 ：提出了增强 UAV 自主导航能力和改善 UAV 模拟向现实部署的可转移性两个有前景的研究方向，以推动 UAV 在真实场景中的应用。

5. 基本原理是啥？

多模态输入处理 ：UAV 导航系统能够处理多种输入类型，包括图像和文本。通过将视觉和语言空间中的 token 进行对齐，系统将多模态输入转化为可供处理的格式。
分层轨迹生成 ：

多模态标记化 ：系统使用预训练的语言标记器将任务描述和助手指令进行标记化，并利用 EVA-CLIP 和 Q-former 结构提取图像的视觉特征。每幅图像被转换为一组 token，包括捕捉全局特征的上下文 token 和代表局部细节的内容 token。
分层轨迹解码器 ：该解码器由高层 MLLM（多模态大语言模型）和细粒度路径解码器组成。高层解码器使用可学习的轨迹 token 作为输入，提取轨迹特定特征，并通过多层感知器（MLP）解码出目标姿态。细粒度路径解码器则生成详细轨迹，提高导航效率。

回溯采样的数据聚合 ：采用 DAgger 模块来处理连续的 UAV 轨迹，通过从模型预测的轨迹和教师模型提供的真实轨迹中采样，创建 VLN 任务的路径。当 UAV 发生碰撞时，系统会回溯到之前的状态，从而避免进一步的碰撞，并帮助 UAV 按照教师模型的指引完成任务。

导航能力提升 ：结合以上技术，UAV 的导航系统能够更有效地理解环境，并根据环境数据和详细指令规划轨迹，从而实现更精确的导航和决策能力。

6. 实验结果

与基线的比较 ：

随机方法 ：UAV 随机选择轨迹姿态，缺乏结构化规划，完成任务的能力很低。
固定动作 ：UAV 将助手指令映射为预定义的固定动作，但表现不佳。
跨模态注意力（CMA） ：在基于视觉的导航任务中使用的模型，由于模型大小和任务复杂性限制，表现较差。
实验结果表明，所提出的方法在不同难度级别的测试集上，所有评估指标均优于基线模型。具体而言，成功率（SR）在不同的辅助水平上，平均提高了 5%。
基线模型 ：

反向采样数据聚合的评估 ：

训练时使用反向采样的数据聚合方法，显示出 SR 有所提高，表明这种方法增强了 UAV 的导航能力。

人类操控 UAV 的表现 ：

在 L1 辅助指导下，人类的成功率较高，但有时路径较长，表明人类在决策时可能选择更谨慎或探索性的路线。

定性结果

通过 OpenUAV 平台评估的两个示例展示了 UAV 成功遵循指令，穿过建筑物，最终找到一辆黄色车辆的过程。过程中 UAV 的相机视角因姿态变化而发生改变，显示了平台的真实性。
在森林区域导航时，由于高度不足造成的碰撞也被展示，突显了复杂环境带来的挑战。

7. 总结 & 未来工作

我们从平台、基准和方法论三个方面解决了现实 UAV（无人机）视觉导航（VLN）面临的挑战。为此，我们开发了 OpenUAV 平台，提供现实环境、飞行模拟和全面的算法支持。我们还构建了一个以目标为导向的现实 UAV VLN 数据集，并提出了 UAV-Need-Help 基准，旨在为 UAV 在复杂的 VLN 场景中提供指导。此外，我们提出了一种 UAV 导航 LLM 以及基于回溯采样的数据增强策略，二者有效地提升了现实轨迹基础的 VLN 任务的性能。我们的贡献建立了一个统一的框架，用于现实 UAV VLN 研究，为缩小模拟与现实世界 UAV 导航应用之间的差距迈出了重要一步。此外，未来的现实 UAV VLN 任务有两个有前景的研究方向。第一是增强 UAV 的自主导航能力，使其能够在复杂环境中以最小的指导有效运作。第二是改善 UAV 模拟向现实部署的可转移性，以促进 UAV 在现实场景中的应用。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：