专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

如何让无人机理解你的指令？从语言到路径！UAV-VLA：实现自然语言与无人机协同作业！

3D视觉工坊 · 公众号 · · 2025-01-14 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种基于自然语言处理的无人机任务生成系统（UAV-VLA），旨在通过解析自然语言指令自动生成无人机的飞行任务路径。文章介绍了一个新创建的基准数据集UAV-VLPA-nano-30，用于评估系统的有效性，并将系统生成的飞行路径与人工生成的路径进行了比较。实验结果表明，该系统不仅在任务生成上比人工方法更高效，且生成的路径仅比人工路径长21.6%，展示了其在路径规划中的灵活性和准确性。此外，文章还提出了一个创新的任务——基于语言的路径规划，为无人机自主执行任务提供了可能，简化了人与无人机的交互方式，并为机器人间的协作奠定了基础。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation

作者：Oleg Sautenkov, Yasheerah Yaqoot等

作者机构：Intelligent Space Robotics Laboratory, Center for Digital Engineering, Skolkovo Institute of Science and Technology.

论文链接：https://arxiv.org/pdf/2501.05014

2. 摘要

无人机-VLA（视觉-语言-动作）系统是一种旨在促进与空中机器人通信的工具。通过将卫星图像处理、视觉语言模型（VLM）和GPT的强大能力相结合，UAV-VLA使用户能够通过简单的文本请求生成通用飞行路径和动作计划。该系统利用卫星图像提供的丰富上下文信息，从而增强决策制定和任务规划能力。VLM的视觉分析与GPT的自然语言处理相结合，为用户提供路径与动作集合，使航拍操作更加高效和易用。新开发的方法在创建轨迹长度上的差异为22%，在通过K近邻（KNN）方法按欧几里得距离寻找目标物体时的平均误差为34.22米。代码开源，地址为：https://github.com/sautenich/uav-vla

3. 效果展示

基准数据中的卫星图像示例。

使命规划师环境显示的紫罗兰广场的边界，家庭的位置和建筑物的文字说明。

由人类专家（a）和UAV-VLA系统（B）生成的飞行计划的比较。

4. 主要贡献

我们提出了一个大规模的视觉-语言-动作（VLA）系统，该系统从单个基于文本的任务请求生成完整的路径-动作集合，将文本输入与卫星图像相结合。
我们引入了名为UAV-VLPA-nano-30的基准测试，用于快速评估视觉-语言-动作系统在全球范围内的任务解决能力。
我们通过在UAV-VLPA-nano-30上的实验验证了我们的系统，结果表明其在路径和动作生成性能上达到了接近人类水平的表现。

5. 基本原理是啥？

自然语言到任务规划的转换
研究提出了一种方法，将自然语言输入（如任务指令）转化为可执行的无人机任务路径。这通过一个多模块系统实现，首先解析输入的自然语言指令，提取出任务目标（例如“飞越所有建筑物”），然后根据这些目标在卫星图像中进行目标识别，最终生成一条符合要求的飞行路径。
基准数据集与评估
为了评估无人机路径规划系统的有效性，研究使用了一个标准化的基准数据集（UAV-VLPA-nano-30），该数据集包含多种环境的卫星图像。通过与人工生成的飞行计划对比，研究评估了系统的路径生成精度和效率。推荐课程：如何快速上手全球最强开源飞控px4？
目标检测与路径规划
采用了目标搜索（VLM）模块来识别图像中的目标点，通过该模块找到指令中涉及的建筑物、道路等元素，并生成相应的地理坐标。然后，系统使用路径规划算法（如动态时间规整（DTW）、K-近邻算法（KNN）等）来生成最优的飞行路径。
自主任务生成
该方法使无人机能够根据自然语言指令自主生成任务计划，从而简化了人机交互过程，减少了人工干预。这一过程不仅仅局限于单个无人机的任务生成，还为机器人之间的自动化任务生成打下了基础，未来可能实现机器人之间的自主协作。

6. 实验结果

实验结果部分展示了该系统在UAV-VLA-nano-30基准数据集上的表现：

轨迹长度
新开发的系统在基准数据集上的总轨迹长度为77.74公里，比经验丰富的无人机飞行员生成的地面真实轨迹长13.85公里，约为21.6%的增加。值得注意的是，在30个案例中，有7个案例（约23%）系统生成的轨迹反而更短。具体表现见图5。
误差评估
误差的评估通过三种方法进行了比较：顺序方法、动态时间规整（DTW）方法和K-近邻方法（KNN）。

顺序方法 ：这种方法严格按照点的顺序进行对齐，因此产生了较大的平均误差，达到每条轨迹409.54米，误差较大是由于该方法对点的顺序有严格要求，可能在长轨迹中累积误差。
动态时间规整（DTW）方法 ：该方法对轨迹进行非线性对齐，通过拉伸或压缩轨迹的部分，减少了平均误差，最终误差为307.27米，表明它更有效地处理了时间变化。
K-近邻（KNN）方法 ：KNN方法忽略了顺序，专注于空间邻近性，结果显示其平均误差最小，表明该方法在空间精度方面表现最佳。

计算效率
UAV-VLA系统处理所有基准图像的时间大约为5分钟24秒，其中2分钟用于通过目标搜索VLM模块识别需要的目标点，3分钟24秒用于使用任务生成GPT模块生成任务文件。与人工生成的飞行计划相比，这一过程的速度快了6.5倍。

7. 总结 & 未来工作

讨论

本文提出了一种全新的全球范围内无人机任务生成方法，在任务规划的灵活性和准确性方面取得了显著提升。通过克服传统人工方法的局限性，该方法在人工干预效率低下的场景中展现了重要价值。本文的主要贡献包括：

基准数据集 UAV-VLPA-nano-30 ：为评估全球范围路径规划技术提供了标准化框架。
自然语言请求解析方法 ：能够将自然语言转化为可执行的飞行路径，其生成的路径仅比人工创建的路径长 **21.6%**，展现了高效性。
无人机的新任务——基于语言的路径规划 ：实现了从自然语言输入到任务计划的自主执行。这种方法通过自然语言实现了人与无人机的直接交互，无需中间设备。

此外，该方法为机器人之间的互动奠定了基础，使得机器人能够自主生成任务计划。这一创新为无人机、人与其他机器人在多样化环境中的无缝协作铺平了道路。

未来工作

未来的工作将专注于构建专门的数据集，用于训练基于卫星地图的路径规划模型。该数据集将进一步提高模型在不同无人机应用中的任务生成精度和效率。

此外，我们计划开发一个端到端模型，能够从高层次目标中自主生成任务计划，将动作生成、路径规划和决策融入统一框架。这将是实现适应多样化环境和目标的全自动无人机任务规划的重要一步。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓