专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

基于深度强化学习的无人机虚拟管道视觉避障

新机器视觉 · 公众号 · · 2024-12-17 21:00

正文

作者：赵静, 裴子楠, 姜斌, 陆宁云, 赵斐, 陈树峰

来源：《自动化学报》

编辑：陈萍萍的公主@一点人工一点智能

原文地址：http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230728

摘要

针对虚拟管道下的无人机 (UAV)自主避障问题，提出一种基于视觉传感器的自主学习架构。通过引入新颖的奖励函数，设计了一种端到端的深度强化学习(DRL)控制策略。融合卷积神经网络 (CNN)和循环神经网络 (RNN)的优点构建双网络，降低了网络复杂度，对无人机深度图像进行有效处理。进一步通过AirSim模拟器搭建三维实验环境，采用连续动作空间优化无人机飞行轨迹的平滑性。仿真结果表明，与现有的方法对比，该模型在面对静态和动态障碍时，训练收敛速度快，平均奖励高，任务完成率分别增加9.4%和19.98%，有效实现无人机的精细化避障和自主安全导航。

高效安全的无人机自主避障是无人机应用中的关键技术之一。传统无人机避障方法主要依赖于激光雷达、超声波和红外摄像头等传感器[1−4]来获取环境信息，其局限性主要表现在传感器自身的重量、功耗、成本，以及环境中可能存在无定位信号等，不具备高效性与自主性。然而，视觉传感器，特别是深度相机，可以提供丰富的环境信息，如障碍物的形状、大小、位置和距离等信息，这为无人机的自主避障提供了新的可能性。在复杂动态环境下实现无人机避障的高效性与自主性，虚拟管道思想引起了研究者的兴趣。虚拟管道技术[5−6]为无人机创建一个看不见的“管道”，它能够使其沿着预设路径移动，技术的核心优点在于无人机只需要保证个体间以及与管道边界不发生碰撞即可。然而，虚拟管道的调整通常需要考虑环境的动态变化，包括处理未知移动障碍物，或与其他无人机交互的复杂动作等[7−8]。因此，探索基于虚拟管道技术使用视觉传感器实现无人机自主避障是当前研究热点之一。Opromolla等[9]提出了一种基于视觉的障碍物检测和跟踪以及冲突检测方法，赋予小型无人机系统非合作感知和回避功能。Yao等[10]利用深度相机定位障碍位置，用来规避多个静态障碍物，经过两阶段压缩的YOLOv5模型进行障碍物检测，提取更精确的图像特征实现了潜水艇的自主导航。

近年来，深度学习技术特别是卷积神经网络(CNN) 在图像识别和自然语言处理等领域取得了显著的进展[11]。CNN广泛应用于图像分类、目标检测和语义分割等任务，为无人机的视觉避障提供了强大的技术支持[12−13]。

该方法具有以下几点优势：

1) CNN可以自动从原始图像中学习和提取有意义的特征，无需手动设计；

2) 经过充分训练的CNN模型能够识别新的对象和场景，这对于无人机在多变环境中的导航和避障是必要的；

3) CNN结构可以进行并行计算，提高训练效率。

然而，仅仅依靠深度学习进行视觉避障仍然面临技术难点，即如何有效地获取大量的标注监督数据集，以及如何确保算法的实时性和鲁棒性等。

为了克服上述挑战，研究者采用深度强化学习(DRL)，在强化学习框架内引入神经网络。DRL优势在于其能够直接从原始数据中学习决策动作的映射，有效处理高维状态空间和连续动作空间的序列决策问题，同时减少对大量人工标注数据的依赖。此外，DRL能够从视觉数据中自动提取特征并依据这些特征做出决策，为无人机的视觉避障提供了一种新的途径，被广泛应用于基于视觉传感器的无人系统领域。Roghair等[14]对基于视觉传感器的无人机避障中的若干DRL算法进行了研究，包括深度Q网络(DQN) 和近端策略优化(PPO)，并探讨了其优势、局限性和未来的研究方向。周治国等[15]提出了基于阈值的DQN避障算法，使得DRL模型能够在复杂环境下快速收敛。Kalidas等[16]提出了改进DQN，该方法使用高斯混合分布将上一时刻的状态与预测的下一个状态进行比较，以选择下一个离散动作，智能体的奖励得到提高。

尽管众多方法已实现了良好的避障效果，但以下两个问题仍然存在：

1) DRL在视觉避障导航中要求无人机与任务环境持续交互，并依据环境反馈的奖励更新策略网络与评价网络的权重。选择适当的DRL算法对于不同的应用场景至关重要，以确保获得理想的结果。先前的研究[17−19]主要关注在二维环境中的无人机运动，通过结合雷达和超声波等传感器数据融合构建无人机的状态空间，定义离散动作空间。虽然这些建模方法能够提供准确的观测结果，但由于传感器的限制，它们不适合用于小型旋翼无人机在虚拟管道中的精细操控和平滑轨迹生成，以实现自主避障。

2)虽然早期研究中已有基于DRL的无人机避障框架并获得一定成果，但在复杂多变的环境中保证轨迹平滑性和模型泛化能力仍是一个问题。特别是在高动态环境下，避障导航问题更加复杂，因为移动障碍物会产生大量交互数据，极大地增加了DRL 模型端到端训练的难度。具体而言：一方面，频繁与高动态障碍物发生碰撞会在初始训练阶段产生许多失败事件和负面奖励，导致DRL系统难以从稀疏的积极反馈中学习有效策略。这不仅增加了网络收敛的难度，也限制了无人机探索环境以积累奖励的能力。另一方面，为了在高动态环境中实现自主避障，无人机必须能够预测障碍物的移动和位置。

基于上述分析，本文聚焦于DRL在虚拟管道中的探索与利用问题，特别是其对环境的高度依赖性。本文的主要研究工作包括：

1) 针对虚拟管道内无人机自主避障问题，采用部分可观察马尔科夫决策过程(POMDP)[20] 进行建模。与依赖激光传感器获得的数字序列信息不同，本方法采用深度相机能够捕获更为丰富的环境状态信息，具有更强的泛化能力，更适合于实际应用，并且易于在真实无人机上进行移植。

2) 提出一种基于视觉传感器的无人机自主学习架构，该架构能够在三维的静态与动态环境中实现实时避障和路径规划。通过采用轻量级的CNN对状态空间数据进行预处理以提取空间特征，并利用循环神经网络(RNN)[21] 来提取时间特征，通过这两种特征的权重融合及模型参数的更新，实现了高效的端到端DRL训练，提高数据的利用率并加速模型的收敛。采用广义优势估计(GAE)[22] 对优势函数进行优化，进一步加速学习过程，并在仿真实验中取得更平滑的飞行轨迹和更高的任务完成率。

3) 通过一系列实验对比，本文提出的基于视觉传感器的无人机自主学习架构通过在虚拟管道静态和动态环境中进行的仿真实验展现出了更快的收敛速度和更强的环境适应性。具体体现在面对不同纹理颜色、传感器噪声和环境变化，本文所提出的方法依然能够保持稳定的避障性能，为实际应用中无人机的自主避障提供了有力的支持。

任务描述及模型建立

本研究旨在为无人机在虚拟管道环境中寻找最优避障策略，以便在通过虚拟管道过程中避开固定和移动障碍物。在虚拟管道环境中，为了确保无人机安全导航和有效避障，智能体必须对环境状态有深入的了解。这些状态通常是由多个环境属性组成的元组，它们为无人机的避障导航提供了必要的信息。在获取当前状态信息后，无人机将做出相应的动作决策。这些决策不仅会影响无人机的移动方向，还会改变其从传感器中获得的视觉反馈。例如：在本任务中当无人机选择向某个方向移动时，它会看到新的障碍物或更多的可通行空间。因此，无人机在导航过程中必须根据实时状态做出决策，每一个决策都会影响未来的状态和后续的决策。

然而，在动态环境下的虚拟管道中，无人机获取的数据(如图像或雷达数据等)通常受限，并且易受到传感器误差的影响，这增加了决策过程中的不确定性。尽管马尔科夫决策过程为顺序决策问题提供了一个框架，但它假设无人机可以完全观察到环境状态，在许多实际应用中这一假设是不现实的。因此，POMDP为这种情况提供了一个更为合适的模型。Zhang等[23] 已经证明了POMDP在处理无人船舶决策问题时的有效性。基于此，本文提出一个针对无人机自主避障导航的POMDP模型，并在虚拟管道中对其进行训练和测试。虽然这增加了决策的复杂性，但更贴近许多实际应用场景的需求。

1.1 DRL方法

DRL训练出的模型具备深度学习的特征表征能力和强化学习的自适应决策能力，从而显著提升智能体的感知和决策功能。与非学习的机器人路径规划技术[24]相比，DRL通过设计奖励函数，使智能体在与环境交互的过程中不断学习并优化原有策略，实现期望奖励最大化。DRL的核心组件包括状态、动作和奖励。DRL基本原理如图1所示。智能体首先对环境进行观测，获取状态

，然后根据一定的策略决定当前时刻要采取的动作

。环境随后对智能体的动作做出反应

，智能体获得奖励

，循环上述步骤直到当前回合结束。

图1 DRL基本原理

DRL算法主要分为3类：基于价值函数、基于策略梯度和结合基于价值函数与策略梯度的演员−评论家(Actor-critic，AC) 算法[25]。本文主要采用AC框架下具有代表性的算法PPO[26] 来实现虚拟管道内避障导航，利用集中训练的方式，在单台电脑上高效地收集来自多个并行无人机环境的样本轨迹进行批量训练智能体，并统一更新网络的参数，从而确保了训练的稳健性和策略的多样性。与Hou等[27]所使用的深度确定性策略梯度算法不同，PPO算法提高了数据利用率，同时保留了策略梯度算法的随机探索性，这对于处理部分可观测的无人机避障问题尤为重要。

此外，本文还采用GAE作为优势函数的估计器，它在保持无偏性的同时，提供低方差的优势估计，进一步改善无人机轨迹的平滑性。具体而言，智能体在

时刻相对于策略

的优势函数定义为：

式中

代表从状态

开始并根据策略

采取行动

后获得的期望累积折扣奖励。而

代表从状态

开始并遵循策略

获得的期望累积折扣奖励。策略和评价网络的权重均按照均匀分布进行初始化。

1.2 环境建模

DRL算法的核心目标是确定一个最佳策略π ，该策略能够将环境状态映射到相应的动作，从而最大化期望累积折扣奖励。在许多实际应用中，智能体无法完全观测到环境的所有状态，进而引入POMDP。POMDP是马尔科夫决策过程的一个扩展，专门处理不完全可观测的情境。POMDP可以通过一个五元组⟨S,A,R,γ,O⟩来定义。其中S和A分别表示环境的状态和智能体可执行动作的集合，R是奖励函数，γ∈(0,1)是折扣因子。考虑到环境的部分可观测性，O表示智能体接收到的观测结果，而不是完整的状态集合S。

1.2.1 状态空间的设计

状态指的是无人机通过传感器与其周围环境互动时获得的环境信息。具体地说，本文使用深度相机作为观测传感器，其探测视角为

。由于深度相机在实际应用中的探测范围限制，无人机只能获取部分环境的状态信息。为了简化计算并便于算法实现，本文将超出特定距离的深度值统一视为固定的深度值。在这项工作中，t时刻的无人机观测状态

定义为：相机视野中的深度图。所有观测状态值都被映射到[–1，1] 范围内，并随后被送入神经网络以进一步处理。

1.2.2 动作空间的设计

在DRL算法框架下，智能体通过执行特定动作与环境互动，从而引起环境状态的变化。对于虚拟管道下无人机的自主避障导航任务，采用连续动作空间成为了关键设计考虑，它使得动作控制更为精细和流畅。在本文中，动作空间被划分为三个维度。无人机在t 时刻的动作被定义为：

其中

、

和

分别代表无人机在x、y和z轴上的线速度。无人机在三维空间中的速度分量分别为

，

和

。

图2是无人机连续动作空间示意图，这种设计不仅促进无人机在面对复杂飞行环境时的精细速度调整，还有助于执行高精度控制任务。此外，采用连续动作空间进一步增强了算法的泛化性，使训练过程更贴近实际应用场景。这种方法也有助于提高算法学习的稳定性和效率，因为它减少了动作选择的离散性，使得学习过程更加平滑。

图2 无人机连续动作空间示意图

1.2.3 奖励函数的设计

奖励在DRL中扮演着重要的角色，它为智能体提供关于其行为优劣的反馈。奖励的设计对模型的收敛性能和智能体在环境中的实际表现有深远影响。在本文中，提出了一个综合奖励

，包括正向奖励和负向奖励两个子目标。这一设计旨在模拟和评价特定策略，解决算法的稀疏奖励问题，并寻求一种能够广泛适用且最优化的策略，使无人机导航至目标点

。t时刻正向奖励包括无人机每步动作的奖励

和达成目标的奖励

，而负向奖励则是对碰撞行为的惩罚

。

单步奖励的计算公式如下：

式中

表示无人机到目标地点的相对三维距离。通过调整系数n，确保无人机始终朝向目标飞行，并给予智能体较大的奖励；相反，如果无人机反向飞行，则给予智能体逐渐减小的奖励，以规范其动作，实现期望目标。这样的设计鼓励智能体积极探索环境，从而加快模型收敛速度。

注1。 本文设计的奖励函数相较于基于连续时刻无人机距离之差更为高效。当无人机接近洞口时，本文设计的奖励函数引导无人机向前飞行的力度逐渐增强，但不会发生突变。这种平稳性可避免无人机在洞口附近产生剧烈的加速或减速，进而提高飞行的稳定性和流畅性，从而优化无人机在各种环境中的性能。

达成目标奖励的计算公式如下：

式中

为无人机在t时刻相比其初始位置x轴的距离差。当这个距离超过一个预定的阈值T时，即无人机成功通过洞口，智能体会得到score的奖励；否则，智能体不获得奖励。

碰撞惩罚的计算公式如下：

如果无人机在到达目标点的过程中与障碍物或墙壁发生碰撞，它会受到相应惩罚。具体地说，当无人机撞到障碍物时，它会得到−score的负奖励，以鼓励智能体避免这种行为；如果没有碰撞，智能体会得到奖励。

综上所述，综合奖励函数考虑单步奖励、达成目标奖励和碰撞惩罚的总和，计算公式如式(6) 所示：

式中

，

分别为各个子目标奖励的权重因子。这种奖励设计确保无人机在自主飞行过程中既能够自主避免障碍，又能够快速地达到目标，从而实现了高效且安全的导航。

PPO算法框架

本文采用PPO算法作为基线，对无人机的飞行策略进行训练。PPO算法受到信赖域策略优化(Trust region policy optimization，TRPO) 和AC框架的启发。它继承了这两种方法的优点，并提出了剪切代理目标函数来解决TRPO算法中复杂的惩罚系数调整问题。同时采用重要性采样来增加训练样本的利用效率，进而加快算法的收敛速度。

为了模拟无人机的飞行，本文选择AirSim[28] 作为模拟器，并将PPO算法扩展应用于虚拟管道避障导航任务。PPO遵循基于策略梯度的学习方法。它通过与环境的交互收集经验样本，并依据这些样本更新策略。使用过的经验样本在更新策略后会被丢弃，并采用更新后的策略收集新样本。PPO也遵循AC框架，策略网络负责生成无人机在虚拟管道中的动作，而评价网络通过估计优势函数评估当前策略的效果并指导策略的改进。策略网络能够在连续动作空间中进行学习，输出连续的实值向量作为动作。这两个网络的参数更新都依赖于策略梯度方法，以实现对策略的持续优化。具体而言，策略网络参数θ 、评价网络参数ϕ的更新如下：

式中℘(θ)代表新策略与旧策略在给定状态下选择某个动作的概率比率，

代表优势函数。ϵ是一个超参数，用于确保新策略与旧策略之间的动作差异不会太大。具体剪切过程如式(8)所示：

策略参数θ 的梯度更新如式(9) 所示：

式中

代表更新后的策略参数，而

代表更新前的策略参数。

是剪切损失函数关于策略参数θ的梯度；α表示学习率，即参数更新的步长。选择合适的学习率α对于参数θ的更新至关重要。这种更新机制保证了策略在学习过程中的稳定性和效率。

评价网络参数ϕ的更新依据式(10) 这个优化目标进行，式中

表示由参数ϕ 定义的价值函数对于状态st 的估计，

是目标价值函数的估计。通过Adam或其他梯度下降来最小化目标函数

，从而学习到能够准确评估价值函数的网络参数。

基于 PPO算法的改进

为满足无人机在虚拟管道中自主避障的需求，并充分利用视觉传感器的数据，使其拥有感知侧面障碍物的能力，让智能体记忆之前图像信息是一种可行的方法。本文为此提出了一个新的无人机自主避障框架，命名为RCPPO (Recurrent convolutional proximal policy optimization)。模型的训练遵循图3展示的RCPPO算法架构。

图3 RCPPO算法架构图

3.1 CNN设计

在DRL中，状态的精确表征对决策和优化至关重要。选择合适的网络结构是简化决策空间并提升算法效率与稳定性的关键。与传统PPO框架下的全连接结构相比，CNN的引入极大提升了深度图像数据的处理效率，能够有效提取空间特征，并筛除无关信息，从而精简图像内容。

然而，DRL通常不宜使用过大或过深的网络结构。由于DRL的特性需要在训练几秒钟后就立即部署并应用新训练的模型，这就要求使用较浅的网络结构以确保模型能快速适应新环境。此外，DRL的训练数据不如监督学习那样稳定，不易分割为训练集和测试集以规避过拟合现象。本研究受到文献[16] 的启发，改良PPO的网络结构，实现了模型的轻量化，并将其命名为CPPO-2；同时，文献[16] 所述的网络结构被称为CPPO-1。此外，引入了代表性的ResNet18网络结构，命名为CPPO-ResNet。文中使用的全连接层网络称为PPO。为了在维持性能的同时最大限度减少参数量，采用了两层卷积与最大池化层的配置。优化后的CNN结构详见表1。

表 1 CNN结构

注2。 这一设计旨在不损害性能的前提下减少网络复杂性，增强算法的通用性和效率。轻量化设计能够缓解DRL中的过拟合问题，为无人机实际应用提供高效的感知能力。通过改进CNN，能够有效地处理大量图像数据，并提升策略和评价网络的性能。

3.2 RNN改进

在PPO算法处理POMDP环境下的无人机导航任务中，关键挑战是无人机对任务全程的感知受限。这导致其在遇到未知的障碍物时，容易陷入局部最优解，无法规划出理想的飞行路径。针对此问题，使用RNN以增强PPO算法的性能。但是考虑到RNN在模型训练过程存在过拟合的可能性，选取长短期记忆(Long short-term memory，LSTM) 神经网络来提取时间特征。LSTM作为RNN的一种改进，其门控机制能够有效处理时序数据和长期依赖问题，选择性保留或忽略信息，确保关键信息在时间步之间得以传递。每个LSTM单元包括遗忘门

、输入门

和输出门

，其基本结构如图4所示。

图4 LSTM网络结构图

在t 时刻，

和

分别代表上一时刻的输出和当前输入。

和

分别表示前一时刻和当前时刻的单元状态。

首先，通过遗忘门决定哪些信息被遗忘。遗忘门使用sigmoid 函数来确定上一时刻的输出

和单元状态

是否继续存在于当前时刻网络的单元状态

中，即丢弃部分信息。遗忘门计算公式为：

式中σ 为 sigmoid 激活函数，

为权重矩阵，

为偏置量，

为当前网络的输入。

接下来，输入门决定更新哪些新信息到单元状态。输入门使用sigmoid 函数和tanh 函数输出的信息来确定当前输入

中的哪些信息应该被更新到单元状态

中，通过tanh 函数生成新候选数值

。输入门计算公式为：

新的单元状态

的计算将结合遗忘门、输入门以及上一时刻的单元状态

，单元状态更新如下：

最后，输出门决定单元状态中的哪些信息应该输出。通过使用sigmoid 函数和tanh 函数，输出门确定了在单元状态

中哪些信息应该被输出到

中。输出门的计算公式如下：

注3。 RCPPO-N模型通过直接将CNN输出的特征向量输入RNN进行处理，利用CNN提取的空间特征进行时间序列分析。相比之下，RCPPO模型整合了空间和时间数据。它首先通过CNN处理图像以提取空间数据，随后通过LSTM分析这些数据以捕捉时间动态。通过自适应拼接技术，这两种信息被有效结合并送入全连接层。这种策略不仅综合考虑了环境的静态与动态变化，还增强了模型在训练过程中的理解能力，有效地应对部分状态可观测性带来的挑战，从而提高无人机的视觉自主避障能力。

3.3 算法框架及流程

针对虚拟管道下的无人机自主避障问题，改进后的PPO算法决策流程将在本节详述。在t 时刻，无人机通过深度相机捕获到的部分状态信息

经过归一化处理后，输入到CNN进行预处理，以提取环境的关键特征。这些特征随后被送入LSTM层，该层负责存储并处理无人机的历史状态信息，以便捕获环境的时间动态。 LSTM层的输出，即隐藏状态，与CNN提取的特征信息经过权重融合，一同作为训练数据传输到两个主要的神经网络：策略网络和评价网络。

策略网络根据当前无人机观测状态

，输出一个动作

。无人机控制系统获取这一动作，并将其转化为实际的控制命令来执行，随后进入下一个观测

，同时获得相应的奖励

。这一系列的观测、动作和奖励

被存储在经验缓冲区中。当经验缓冲区中的数据量达到一定阈值时，首先利用这些数据通过GAE来计算优势函数，量化每个动作对于策略改进的贡献度。

随后，算法采用截断比率方法限制策略更新步幅，以防止策略更新偏移过大。同时，价值网络用于辅助评估当前策略的性能，并基于策略梯度优化方法直接对策略网络进行优化。为了鼓励探索并防止策略过于确定性，熵奖励被加入到目标函数中。这一过程持续进行，直到达到预设的迭代次数。在此过程中，通过定期查看训练曲线和在更新后的模型上测试成功率、奖励值和任务完成时间等指标，以评估模型训练的效果并确定是否已经获得了最优策略。值得注意的是，策略网络和评价网络共享部分网络参数，从而提高了训练的效率和模型的泛化能力。双网络的结构如图5所示。

图5 双网络结构图

仿真实验

通过设置三组仿真实验：无障碍、静态障碍和动态障碍模拟正则管道的实际应用场景。其中，小立方体可以视为固定的监测站或传感器，较大的立方体则代表巡检机器人或移动式采样器，具体的虚拟管道场景如图6所示。为了增强模型的泛化能力，确保在仿真环境中训练得到的模型能够顺利迁移到实际应用场景中，本文设置无人机的初始位置和目标位置为随机生成。速度阈值为[−0.6，0.6] m/s，LSTM捕获时间特征的步数为5，两个连续步骤之间的时间间隔为0.05 s，回合的最大步长预算根据不同场景进行不同设置。

图 6 实验环境

本文首先在无障碍物的环境中训练模型，以验证算法是否能在实验环境中成功达到预设目标。其次，在设置有静态障碍的虚拟管道环境中评估改进后的CNN对算法性能的影响。最后，在融合存在静态障碍与动态障碍的环境中，使用RCPPO与不同算法进行对比，以评估所提算法的优越性。

基于深度强化学习的无人机虚拟管道视觉避障

正文

请到「今天看啥」查看全文