点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种轻量级的深度强化学习框架,旨在解决高速固定翼无人机在复杂环境中的避障问题。该框架通过利用单帧推断深度图作为输入,并采用轻量化网络架构,以应对固定翼无人机的稳定性和动态约束。文章还引入了一种推断奖励函数来改善飞行稳定性,并通过自适应熵更新机制平衡探索与利用。通过硬件在环仿真和与其他强化学习算法的比较,实验结果表明,所提出的方法在避障效果和轨迹平滑度方面优于其他算法,特别是在复杂场景中表现出更强的适应能力。未来,研究计划将该算法部署到实际的垂直起降固定翼无人机上,以验证其在真实环境中的可行性。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs
作者:Haochen Chai, Meimei Su等
作者机构:Northwestern Polytechnical University
论文链接:https://arxiv.org/pdf/2411.18009
2. 摘要
固定翼无人机(UAV)是新兴低空经济(LAE)和城市空中出行(UAM)中最常用的平台之一,因其具有较长的续航能力和高速飞行能力。传统的障碍物避障系统依赖于先前的地图或复杂的传感器,但在未知的低空环境和小型无人机平台中存在局限性。为此,本文提出了一种轻量级的基于深度强化学习(DRL)的无人机碰撞避障系统,使固定翼无人机能够在巡航速度超过30m/s的情况下,仅依靠机载视觉传感器避免未知障碍物。所提出的系统采用单帧图像深度推理模块,并配有精简的网络架构,以确保实时的障碍物检测,优化了边缘计算设备的性能。随后,设计了一个带有新颖奖励函数的强化学习控制器,以平衡目标接近和飞行轨迹平滑性,满足固定翼无人机平台的特定动态约束和稳定性要求。引入了自适应熵调整机制,以缓解深度强化学习中固有的探索-利用权衡,提升训练收敛性和避障成功率。大量的软件在环和硬件在环实验表明,所提出的框架在避障效率和飞行轨迹平滑性方面优于其他方法,并验证了算法在边缘设备上实现的可行性。源代码已公开,网址:https://github.com/ch9397/FixedWing-MonoPPO。
3. 效果展示
训练飞行路线。黄色的六角星代表目标,红色的星星表示固定翼无人机的起飞位置,紫色的线代表预计的飞行轨迹。
不同奖励函数对避障飞行轨迹影响的比较。红色实线表示通过深度强化学习(DRL)算法的决策过程生成的固定翼无人机的飞行轨迹。带箭头的蓝色实线表示预期的飞行轨迹,从起飞点指向目标点。绿色虚线表示避障操作期间的推断深度图。(a)(c)和(e)示出了由仅使用rdis的模型生成的避障轨迹,而(B)、(d)和(f)示出了由使用所提出的奖励函数训练的模型生成的避障轨迹。
在不同场景下对所提出的方法和基于样本的方法进行了HIL比较。红线表示由我们提出的方法生成的飞行轨迹,而蓝线表示基于样本的方法。
4. 主要贡献
-
-
我们引入了一种基于自适应熵调整的策略更新机制,以解决PPO在训练过程中依赖历史数据造成的局部优化问题。该机制确保我们的算法能够识别成功率更高的避障策略。
-
通过软件在环和硬件在环实验,我们展示了所提出的框架在避障效率和飞行轨迹平滑性方面优于其他方法,并验证了算法在边缘设备上运行的可行性。
5. 基本原理是啥?
-
深度强化学习(DRL)框架
:本研究利用深度强化学习(Deep Reinforcement Learning,DRL)来解决高速固定翼无人机的避障问题。DRL结合了深度学习的强大表达能力和强化学习的决策能力,使得无人机可以通过与环境的交互学习到避障策略。
-
单帧深度图输入
:该方法的核心创新之一是使用推断的单帧深度图作为输入。深度图提供了每个像素点到障碍物的距离信息,帮助无人机了解其周围的环境,从而在飞行过程中进行障碍物检测和避障。
-
轻量级网络架构
:为了适应高速飞行并保持高效性能,该框架使用了轻量级的网络架构。这种架构在保证推理速度和精度的同时,避免了计算资源的过度消耗,适合于资源有限的边缘设备上部署。
-
推断奖励函数
:为了保证飞行轨迹的平稳性和稳定性,框架中设计了一个推断奖励函数。该奖励函数不仅考虑了避障效果,还整合了飞行稳定性和动态约束条件,确保无人机能够在复杂环境中平稳飞行。
-
自适应熵策略更新机制
:该机制用于平衡探索与利用的关系。强化学习中的"探索"是指尝试新的行为,而"利用"是指重复当前最优的行为。自适应熵机制根据当前的学习进度动态调整探索与利用的比例,帮助模型更有效地学习复杂环境中的最优策略。
-
硬件在环仿真(Hardware-in-the-loop Simulation)
:通过硬件在环仿真,算法的实际效果在接近真实世界的环境下进行了验证。通过在模拟环境中进行大量的实验,测试了算法在避障和轨迹平滑度方面的表现。
6. 实验结果
-
-
硬件配置
:实验在配备
Intel Xeon E5-2678 V3
CPU 和
两块 NVIDIA RTX 3090 GPU
的机器上进行。为了建立不同的环境,使用了高保真度的仿真平台
AirSim
,该平台基于 **Unreal Engine (UE)**,提供RGB图像和固定翼无人机的位置信息。
-
固定翼无人机动力学模型
:使用
JSBSim
提供的固定翼无人机模型(Skywalker X8),该模型以其高稳定性和广泛应用于各种飞行场景而闻名。
-
训练参数
:训练使用
PyTorch
框架,训练环境为一个 1000m x 600m 的矩形城市环境,目标点从三条预定义飞行路径中随机选择。
-
目标场景
:飞行路径上障碍物的分布不同,模拟了不同障碍密度对飞行任务的挑战。使用AirSim提供的相机收集图像数据,分辨率为 480×640,用于深度估计模块。
消融实验 (Ablation Studies)
在消融实验中,研究了框架中各个模块对性能的影响:
-
奖励函数影响
:首先,使用仅基于距离的奖励函数进行训练,并将其与包含多个因素(如障碍物避让和平滑度)的完整奖励函数进行比较。结果表明,使用完整奖励函数的模型能够产生更平稳、稳定的飞行轨迹,而仅使用距离奖励函数的模型会产生更多的急剧转向,可能对固定翼无人机的控制系统造成额外负担,导致潜在的不稳定。
-
自适应熵的影响
:通过设置不同的熵权重(0.01和0.001),比较了奖励的变化。结果表明,提出的方法表现出更快的学习曲线,且收敛速度较快,表明其能够更稳定、一致地学习到适合的飞行策略。相比之下,较低熵权重的模型表现出中等的变异性,收敛速度较慢。
策略比较 (Policy Comparison)
在三种不同的场景下(城市、线路巡航、峡谷),将提出的算法与其他强化学习算法(PPO、TRPO、A3C、DQN、DDPG)进行了对比:
结果分析
:这些实验表明,所提出的方法在各种环境中均能有效地应对不同难度的避障任务,并且在复杂场景(如城市和峡谷环境)中相比其他算法具有明显优势。
-
城市场景
:在城市环境中(高密度障碍物),提出的方法表现出 86.0%的任务完成率,明显高于其他算法。例如,PPO算法在该场景中的成功率为 82.0%。
-
线路巡航场景
:在相对简单的线路巡航场景中,提出的方法表现为 80.0%的任务完成率,略高于PPO算法(76.0%)。其他算法(如TRPO、A3C、DQN、DDPG)则表现较差,成功率都低于80.0%。
-
峡谷场景
:在峡谷场景(具有动态地形变化)中,提出的方法依然保持较强的表现,成功率为 74.0%,而PPO的成功率仅为 69.0%。其他算法在此复杂场景中的表现更差,DDPG的成功率最低,只有 62.0%。
硬件在环仿真 (Hardware-in-the-loop Simulation)
-
硬件配置
:硬件在环实验使用配备
Intel i5-13600KF
CPU 和
NVIDIA RTX 4070Ti SUPER
GPU 的计算机进行模拟,边缘计算平台为
OrangePi 5B
,配备了
Rockchip RK3588s
处理器和神经处理单元(NPU),用于执行实时推理。
-
实验验证
:实验验证了所提出算法的部署能力,比较了该方法与基于样本的算法的性能。
-
飞行轨迹比较
:在障碍物较密集的场景中,提出的算法生成了更平滑、更短的路径,而基于样本的算法则趋向于选择障碍物较少的区域飞行。在障碍物稀疏的场景中,基于样本的算法能够生成更接近预期的飞行路径。尽管基于样本的算法在平滑度上表现较好,但在复杂环境下的转向能力受限,无法顺利应对峡谷等复杂地形。
-
定量分析
:通过对飞行轨迹在不同场景下的X、Y坐标分布进行定量分析,结果表明,提出的方法在简单环境中(如场景I)与预期轨迹的偏差较小,能够较好地遵循最优飞行路径;在复杂环境中(如场景II和场景III),提出的方法表现出更平滑的轨迹和更强的适应能力,特别是在崎岖地形中能够成功避障。
7. 总结 & 未来工作
本文提出了一种轻量级的深度强化学习(DRL)框架,该框架利用推断的单帧深度图作为输入,并采用轻量级网络架构来应对高速固定翼无人机的避障挑战。我们的框架结合了推断奖励函数,以解决固定翼无人机的稳定性和动态约束问题,并且采用基于自适应熵的策略更新机制,以平衡训练过程中的探索与利用。所提方法通过硬件在环仿真在不同场景下进行了测试,并与其他强化学习算法进行了比较。实验结果表明,我们的框架在避障效果和轨迹平滑度方面显著优于这些算法。
尽管取得了良好的实验结果,但我们的研究仍存在一定的局限性。依赖推断的深度图可能会影响障碍物检测的精度,尤其是在存在突发的小型障碍物的环境中。未来,我们计划将该算法部署到实际的垂直起降(VTOL)固定翼无人机上,以验证其在真实场景中的可行性。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建