专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

端到端！DPRL：深度强化学习如何突破复杂环境中的无人机避障难题？

3D视觉工坊 · 公众号 · · 2024-12-20 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种名为DPRL的深度特权强化学习算法，旨在解决无人机（UAV）在复杂、未知环境中的自主导航和避障问题。该算法通过使用非对称的演员-评论家网络结构实现特权学习，解决了飞行过程中感知和定位噪声的问题。此外，文章采用了异步多智能体探索策略，提升了数据效率并加速了模型收敛。通过在AirSim仿真环境中进行实验，结果表明DPRL算法在收敛速度、飞行成功率、对环境变化的鲁棒性和规划效率方面表现优异，并显示了良好的现实应用转移潜力。作者还进行了多种消融实验，验证了特权学习、多智能体探索以及状态和动作空间设计的有效性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information

作者：Junqiao Wang ,Zhongliang Yu等

论文链接：https://arxiv.org/pdf/2412.06313

2. 摘要

无人机在复杂和未知环境中的高效自主导航和障碍物避让能力对农业灌溉、灾难救援和物流等应用至关重要。本文提出了DPRL（分布式特权强化学习）导航算法，这是一种端到端策略，旨在解决部分可观察环境条件下高速自主无人机导航的挑战。我们的方法将深度强化学习与特权学习相结合，以克服部分可观察性导致的观测数据损坏问题。我们利用不对称的Actor-Critic架构，在训练过程中为代理提供特权信息，从而增强模型的感知能力。此外，我们提出了一种多智能体探索策略，旨在跨不同环境加速经验收集，进而加速模型收敛。我们在多个场景中进行了广泛的仿真实验，并将DPRL算法与最先进的导航算法进行了基准测试。结果一致表明，我们的算法在飞行效率、鲁棒性和整体成功率方面表现优越。

3. 效果展示

使用UE4和AirSim搭建的仿真环境。(a)训练环境自上而下的看法。(b)随机生成环境的自上而下视图。(c)无人机在环境中飞行的视图。

添加噪声对视觉感知数据的影响。(a)模拟环境中摄像机获得的深度图像。(b)在深度图像中加入椒盐噪声。(c)在图像(b)上添加高斯噪声。(d)在图像(c)上应用运动模糊。

4. 主要贡献

我们通过在训练过程中为Critic网络提供准确的感知信息，将深度强化学习与特权学习相结合，极大提升了模型处理环境不确定性的能力。
我们提出了一种多智能体探索策略，通过多个无人机在模拟环境中异步操作收集经验，提高了效率并加速了收敛。
我们通过与TD3和EGO-Planner-v2的对比实验，验证了算法在成功率、效率和鲁棒性方面的优势，并通过消融研究验证了其设计的有效性。

5. 基本原理是啥？

DPRL（Deep Privileged Reinforcement Learning，深度特权强化学习）算法的基本原理结合了强化学习（RL）和特权学习（Privileged Learning），并通过异步多智能体探索和优化的状态与动作空间来提高无人机（UAV）在复杂、未知环境中的自主导航和避障能力：

特权学习（Privileged Learning） ：特权学习是一种利用额外的信息（通常是环境的某些“特权”数据）来加速强化学习训练的方法。在DPRL中，特权学习通过使用一个不对称的Actor-Critic网络结构来解决飞行环境中的感知和定位噪声问题。具体而言，Actor-Critic结构包括两个主要部分：

特权学习通过允许网络在学习过程中获得某些额外的信息（例如，准确的环境状态或者更清晰的传感器数据），使得模型能够在训练初期更快地收敛，从而提高训练效率。

Actor ：负责选择动作，决定无人机在环境中的行为。
Critic ：负责评估动作的价值，提供对Actor的反馈，帮助其改进决策。

异步多智能体探索（Asynchronous Multi-Agent Exploration） ：为了提高数据效率和加速模型收敛，DPRL算法采用了异步多智能体探索。在多个不同的环境中，多个智能体（无人机）并行进行探索和训练，每个智能体根据自己的状态收集经验并进行更新。通过这种方式，算法能够获得更多的多样化经验，从而提高数据利用率和模型的泛化能力。推荐课程：如何快速上手全球最强开源飞控px4？

优化的状态与动作空间设计 ： DPRL设计了合理的状态和动作空间，以便模型能够高效地学习和执行任务。通过优化状态空间的维度和内容，DPRL算法能够提供足够的信息帮助智能体做出准确的决策。同时，动作空间的设计使得无人机能够更有效地进行导航和避障。DPRL通过考虑目标位置、速度等因素来调整状态和动作空间，确保无人机能够在飞行中适应复杂的环境。

深度强化学习的结合 ： DPRL算法基于深度强化学习（Deep Reinforcement Learning，DRL），使用深度神经网络作为函数逼近器来估计价值函数和策略。这使得DPRL能够处理高维的感知输入（如图像、点云数据等），并通过训练不断优化无人机的行为决策。

6. 实验结果

实验设置

我们在UE4（虚幻引擎4）中创建了一个现实的仿真环境，采用AirSim的基础动力学模型进行精确模拟。为了模拟一个复杂的障碍物环境，我们生成了如图5(a)所示的场景用于模型训练。该环境包括70个半径为2.5米、高度为15米的圆柱形障碍物，均匀分布在一个半径为60米的圆形区域内，中心位于原点。无人机（UAV）的飞行高度限制为最大15米，确保其必须绕过障碍物进行避障，而非飞越障碍物，以避免过度消耗能量。

每次训练的开始时，无人机从原点起飞，初始高度为5米，目标位置随机分布在一个半径为65米的圆周上。当无人机到达距离目标2米以内时，即认为本次任务成功。反之，若无人机与障碍物的距离小于1米或飞出定义的飞行区域，则该次任务失败。每个动作的执行持续时间为0.1秒，确保指令平滑连续，同时避免对仿真造成过高的计算负担，以保持训练的帧率。具体的环境配置和动力学模型参数见表2。

我们使用三种不同的随机种子创建了三个独立的训练环境，并使用另一个环境进行模型评估。每个环境中的无人机独立收集经验，由不同的进程控制。训练在配备Intel i7-13700KF CPU和NVIDIA 4070 Ti GPU的工作站上进行，平均模型更新帧率为20帧/秒。表2提供了训练、奖励函数和噪声设置的具体参数。为了评估模型，我们使用了三个评估指标：平均回合奖励（AER）、成功回合的平均步数（ASSE）和成功率（SR）。

AER ：评估算法的整体表现，包括导航精度、避障安全性和效率。较高的AER值表示更好的整体性能。
ASSE ：评估算法的效率，较小的ASSE值表示无人机以更少的步骤完成任务，展示了更高的效率。
SR ：评估算法的成功率，较高的SR值表示更好的安全性和实用性。

对比实验

为了验证我们提出的无人机自主导航框架的综合性能，我们将DPRL算法、TD3算法和EGO-Planner-v2框架进行了对比分析。对于DPRL和TD3，我们提供了噪声的视觉感知、定位和其他自状态信息。相比之下，EGO-Planner接收的是激光雷达（LiDAR）点云数据以及带噪的里程计信息，噪声均值为0，标准差为0.016。这种设置在映射过程中引入了控制扰动，以模拟现实环境中的条件。EGO-Planner的最大速度与基于RL的方法一致，设定为3米/秒。EGO-Planner使用了PD控制器，输出飞行命令以控制速度和航向角。

下文为具体的实验结果：

图6(a)和(b)展示了在四个不同随机种子下，DPRL与TD3算法的对比训练曲线。如图6(a)所示，DPRL算法的收敛速度明显快于TD3，在训练220,000步后，DPRL的平均成功率就超过了85%。图6(b)中的平均回合奖励曲线与成功率曲线的趋势相似。DPRL在训练的早期和中期阶段奖励增长迅速，在240,000步后稳定在较高的奖励值。而TD3的奖励增长始终较慢，训练结束时未能收敛。
我们将训练好的DPRL、TD3和EGO-Planner-v2模型分别部署到训练环境和随机生成的环境中（如图5(b)所示），并绘制了30次任务（每次具有不同目标位置）的飞行轨迹，如图7所示。从图中可以看出，DPRL在训练和随机环境中的成功率都很高。尽管在不熟悉的环境中，成功率较训练环境有所下降，但该模型依然表现出了对噪声干扰的鲁棒性，表明它能够适应新环境。相比之下，TD3在两种环境中的表现都较差，飞行轨迹较为不平滑。对于EGO-Planner来说，两种环境都对其而言是陌生的，其中训练环境的障碍物密度较高。因此，EGO-Planner在训练环境中的表现不如在随机环境中的表现。EGO-Planner的轨迹最平滑，且在目标点的到达精度上最高，但其规划速度在三种算法中是最慢的。

消融实验

我们首先进行了消融实验，探讨了特权学习和多智能体探索组件对DPRL算法性能的影响。实验结果见图8(a)和(b)。在这些实验中，我们通过去除多智能体探索和特权学习分别得到了Privileged RL和Distributed RL。

如图8(a)所示，DPRL在训练过程中表现出了比Privileged RL和Distributed RL更快的收敛速度和更高的最终平均成功率。具体来说，DPRL的成功率在220,000步后稳定，而Privileged RL和Distributed RL则在300,000步后才开始收敛。图8(b)中的平均回合奖励曲线也与成功率曲线趋势一致。DPRL的奖励在240,000步后稳定在30以上，而Privileged RL需要超过300,000步才能达到类似的奖励，Distributed RL则在训练结束时未能超过30奖励。

需要注意的是，特权学习的影响大于多智能体探索。尽管在训练初期，Distributed RL的收敛速度略优于Privileged RL，但Privileged RL在训练200,000步后开始超过Distributed RL，并最终获得了更高的平均成功率和平均回合奖励。这表明特权学习在处理环境部分可观察性方面的显著优势，以及多智能体探索在加速早期收敛方面的有效性。

为了比较不同状态空间和动作空间设计对模型的影响，我们进行了以下实验。我们根据He等人的研究，建立了一个替代的状态和动作空间，其中对自状态向量中的位置和速度信息进行了修改。具体来说，状态中包括了xy平面内到目标的距离、z轴距离、xy平面内的速度和z轴速度。此调整将状态向量的维度从33降到了31，动作空间也从4维减少到3维。原来的x和y速度分量被替换为一个xy平面速度，并在执行过程中基于当前航向角拆分为x和y分量。

实验结果见图9。可以明显看出，我们提出的4维动作空间及其对应的状态空间在训练过程中明显优于3维动作空间及其状态空间。使用3维动作空间的DPRL模型在训练初期几乎没有成功的飞行回合，学习进展非常缓慢。到训练结束时，其平均成功率仅为30%左右，甚至表现不如使用4维动作空间的TD3。这个差异在平均回合奖励上也有所体现。使用3维动作空间的DPRL模型在训练过程中奖励几乎没有提高，最终只达到了10的平均奖励，表明动作空间压缩对模型学习避障导航的能力产生了显著的负面影响。这些结果验证了我们所提出的状态和动作空间设计的合理性与有效性。

7. 总结 & 未来工作

在我们的研究中，提出了DPRL算法，用于无人机在复杂、未知环境中的自主导航和避障。具体而言，我们通过采用不对称的Actor-Critic网络结构实现了特权学习，以应对飞行环境中遇到的感知和定位噪声。此外，我们通过跨多个环境的异步多智能体探索提高了数据效率，加速了模型的收敛。通过在AirSim仿真环境中进行的实验，证明了DPRL算法在收敛速度、最终飞行成功率、对环境变化的鲁棒性和规划效率等方面的综合优越性能。实验结果还验证了我们创新设计的有效性及其状态和动作空间的合理性。此外，我们的算法展现出了强大的迁移到现实应用中的潜力，并且与所有离策略深度强化学习算法兼容，具有广泛的泛化能力。

在未来的工作中，我们将进一步提升DPRL算法在各种复杂环境中的导航和避障成功率，并进行户外飞行实验，以更全面地验证我们提出的算法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉