专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

聊聊强化学习在无人机中的前沿应用

计算机视觉工坊 · 公众号 · · 2025-01-01 00:10

正文

来源：深蓝AI

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

导读：

在战略性新兴产业中，低空经济占据了重要的地位。借助低空经济的东风，无人机正从"天上的风景"逐渐变成"空中的生产力"。与此同时，Chatgpt、Claude、Kimi等国内外大模型掀起的热潮让人工智能领域再次沸腾，强化学习作为的关键技术也借势焕发第二春，正在经历新一轮的技术革新和应用扩展。在这样的背景下，低空经济让无人机大火，大模型的出现让强化学习大火，今天我们选择一个火上加火的题材，好好聊聊强化学习在无人机中的应用。

首先，我们需要了解强化学习的作用是什么。 强化学习是一种通过"试错"来学习最优策略的方法，其核心是让智能体在与环境的持续互动中，通过奖励信号来优化决策行为。 在无人机系统中，强化学习在决策-规划-控制这三个层次上都有许多的应用。

在决策层，强化学习主要用于实现多无人机系统的协同决策和任务分配，特别是在复杂和动态的环境中。 强化学习通过“试错”的方式，使无人机能够在与环境的持续互动中，通过奖励信号来优化其决策行为。

例如：

基于多智能体强化学习的无人机群通信方案，通过优化中继选择和功率分配，有效抵御环境中的干扰，显著提升多无人机通信系统的鲁棒性和效率 ¹ 。
此外，强化学习还被用于异构无人机的协调动态任务分配框架，在环境不确定性条件下，通过动态调整决策策略，实现无人机之间的高效协作与资源分配 ² 。

最近一篇由曼彻斯特大学李阳提出的“HOLA-Drone: Hypergraphic Open-ended Learning for Zero-Shot Multi-Drone Cooperative Pursuit”算法 ³ ，通过强化学习中的开放式学习框架，能够持续调整学习目标，从而增强无人机在与多个未知伙伴协作时的能力，特别是在零样本学习场景下表现出色。

如图1所示，(a)展示了一个合作无人机追捕任务的的示意图，包含3个追捕者和2个逃逸者， (b)展示了在真实世界中使用Crazyflie无人机进行合作追捕任务的俯视图，(i)：展示了实验的初始状态，追捕者和逃逸者被随机放置在各自的生成区域内。(ii)：展示了追捕者成功捕获第一个逃逸者的瞬间。此时，追捕者与逃逸者之间的距离小于捕获距离（0.2米），逃逸者被视为被捕获。(iii)：展示了追捕者成功捕获第二个逃逸者的瞬间。同样，追捕者与逃逸者之间的距离小于捕获距离，逃逸者被视为被捕获。

▲图1 |HOLA-Drone实现围捕任务决策

图2展示了一个HOLA-Drone算法的核心工作流程——Grapher和Oracle模块的交互过程。通过构建超图和偏好超图，HOLA-Drone能够有效地评估学习者与不同伙伴的协作能力，并通过Oracle模块训练出最佳偏好智能体，从而提高学习者在复杂环境中的零样本协作能力。这种架构可以使HOLA-Drone能够在与未知的伙伴协作时，表现出高效的协作能力，验证了其在多无人机协同追捕任务中的有效性。

▲图2 |HOLA-Drone算法核心工作流程

在规划层，强化学习主要专注于实现自主规划导航，主要包括实时路径规划与重规划、避障策略生成、时空轨迹规划等。 其中代表性的工作是Antonio Loquercio等人发表在《Science Robotics》上的"Learning High-Speed Flight in the Wild"，作者通过强化学习中的模仿学习算法训练了一种端到端无人机轨迹规划器，可以在森林、工厂等复杂环境下实现平均速度为10 m/s的高速飞行，飞行过程如图3所示。

▲图3 |复杂环境下无人机高速自主规划导航

图4展示了基于强化学习的无人机自主规划导航的整体架构和工作流程，分为三个主要部分： A.特权专家、B.感知智能体规划器和C.模拟环境。 特权专家是一个在模拟环境中运行的规划算法，拥有完整的3D环境地图和无人机的精确状态信息。它的主要任务是生成无碰撞的轨迹，供感知智能体规划器学习。感知智能体规划器是部署在无人机上的神经网络策略，它通过端到端方法从传感器数据中预测出无碰撞的规划轨迹，并令无人机执行这些轨迹。模拟环境主要基于Flightmare模拟器。该模拟器提供了逼真的环境渲染和物理模拟，确保训练数据与现实世界的环境条件相似。模拟器生成的环境包括密集的森林、简单的几何形状物体以及需要通过狭窄缝隙的场景。这些环境用于生成训练数据，并通过模仿学习算法，利用特权专家提供的信息，训练出能够在复杂环境中实现高速、自主飞行的无人机系统。

▲图4 |基于强化学习的无人机自主规划导航的整体架构和工作流程

在控制层，强化学习主要实现对无人机系统的各种控制，包括无人机位置控制、速度控制、姿态控制、角速度控制等。 其中，最让人印象深刻的莫过于苏黎世大学Robotics and Perception Group发表在《Nature》上的工作"Champion-level Drone Racing using Deep Reinforcement Learning"，通过强化学习算法训练无人机控制策略，在无人机竞速比赛中首次打败了人类世界冠军，比最快的人类冠军快约0.49秒，比最慢的人类冠军快约3.70秒，比赛图片如图5所示。

▲图5 |竞速无人机比赛

具体的实现框图如图6所示，a部分是竞速无人机的系统框图，通过视觉-惯性里程计(VIO)获得无人机位置速度等状态信息，结合门框检测图片作为强化学习策略网络的输入，输出具体的无人机控制量。b部分描述了竞速无人机的强化学习训练过程，主要包括：感知和动力学残差的处理、控制策略的生成、奖励函数的设计以及物理模拟的更新。通过这种方式，基于强化学习的竞速无人机能够在模拟环境中优化其控制策略，并最终在现实世界中实现高性能的无人机竞速。

▲图6 |基于强化学习的无人机自主规划导航的整体架构和工作流程

强化学习在无人机系统中的应用已经从理论研究走向实际应用，展现出巨大的潜力和创新性，涵盖决策层、规划层和控制层等多个层次。 在决策层，强化学习通过“试错”机制优化多无人机系统的协同决策和任务分配，例如曼彻斯特大学的HOLA-Drone算法通过开放式学习框架提升零样本协作能力，在复杂环境中实现高效协作。在规划层，强化学习专注于自主规划导航，如Antonio Loquercio等人通过模仿学习算法训练无人机在复杂环境下实现高速飞行，构建了特权专家、感知智能体规划器和模拟环境相结合的系统架构。在控制层，强化学习实现了对无人机系统的精准控制，例如苏黎世大学通过深度强化学习训练无人机竞速策略，首次在比赛中超越人类世界冠军，展现了其在高性能控制中的卓越表现。这些应用不仅推动了无人机技术的革新，也为低空经济的发展提供了强有力的技术支撑。

参考文献：

1. Multi-agent reinforcement learning based UAV swarm communications against jamming

2. Multi-agent reinforcement learning- based coordinated dynamic task allocation for heterogenous UAVs

3. Gpt-4 technical report

4. Enhancing software code vulnerability detection using gpt-4o and claude-3.5 sonnet: A study on prompt engineering techniques

5. Deep reinforcement learning: A brief survey

审核｜wjh

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

聊聊强化学习在无人机中的前沿应用

正文

审核｜wjh

3D视觉工坊知识星球

请到「今天看啥」查看全文