专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

CEH-YOLO：基于 YOLO 的水下目标检测复合增强模型

计算机视觉研究院 · 公众号 · · 2025-02-06 16:00

正文

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID ｜ 计算机视觉研究院

学习群 ｜ 扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

相关研究提出一种基于 YOLO 的水下图像目标检测方法，引入一种改进的无锚点 YOLO 检测方法，将检测特征与识别特征分离，以减少特征间的相互干扰，提高检测精度。还提出一种基于 Retinex 的图像增强算法用于水下图像增强，并通过在水下数据集上的相关实验，验证了增强型 YOLO 检测方法的有效性。

前景概要

水下记录与处理系统的进步，凸显了对专门用于精确检测和追踪图像中微小水下物体的自动化方法的需求。然而，水下光学图像具有独特的特性，包括对比度低、颜色变化大以及存在微小物体，这些都带来了重大挑战。本文提出了 CEH - YOLO，它是 YOLOv8 的一个变体，融入了高阶可变形注意力（HDA）模块，通过对模型内关键区域进行优先级排序，来增强空间特征提取与交互能力。此外，还集成了增强型空间金字塔池化快速（ESPPF）模块，以强化对物体属性（如颜色和纹理）的提取，这在存在微小或重叠物体的场景中尤为有用。定制的复合检测（CD）模块进一步提高了物体检测的准确性和全面性。而且，该模型采用 WIoU v3 技术进行边界框损失计算，有效解决了标准及极端条件下与边界框相关的回归难题。实验结果表明，该模型性能卓越，在 DUO 和 UTDAC2020 数据集上的平均精度分别达到 88.4% 和 87.7%。值得注意的是，该模型的检测速度高达 156 帧 / 秒，满足了关键的实时检测需求。其模型大小仅为 4.4 兆字节，计算复杂度适中，为 11.6 GFLOPs，非常适合集成到水下检测系统中。

背景

全球对海洋资源勘探与可持续利用的需求日益增长，这凸显了精确水下目标检测（UOD）作为有效资源管理基本前提的至关重要性。传统上，人类潜水员是水下检查的主要方式；然而，这些方法伴随着众多风险和操作限制，制约了其可扩展性与安全性。因此，水下机器人技术和计算机视觉领域的技术进步成为了颇具前景的替代方案，实现了水下目标检测的自动化，并提高了检测的准确性和效率。

尽管取得了这些技术进展，但水下环境带来的独特挑战，包括其复杂的光学特性和动态的生态因素，仍然是实现精确水下目标检测的巨大障碍。幸运的是，深度学习技术的快速发展推动了该领域的显著进步。现有的目标检测算法通常分为两类：两阶段算法和单阶段算法。两阶段算法，如 R - CNN、Mask R - CNN和 Cascade R - CNN，检测精度高，但代价是需要大量计算资源且推理速度较慢。相比之下，以 YOLO 系列、SSD和 RetinaNet为代表的单阶段算法，更注重速度而非精度，这使得它们适用于实时应用场景。

水下环境给目标检测算法带来了独特的挑战，如图像失真、低对比度条件以及小目标检测等。水下图像的质量常常受到诸如失真、雾化、模糊和散射光效应等因素的影响（见下图）。

这些现象严重影响了检测算法的性能，使其难以在受损图像中识别和定位目标。此外，水下目标通常较小且精细，在图像中占据的像素数量有限，从而加剧了检测难度。水下环境错综复杂的背景，包含众多自然和人造物体，进一步增加了这一挑战。另外，许多水下生物具有出色的伪装能力，通过颜色、形状和行为与周围环境无缝融合，给检测算法带来了重大挑战。

为应对这些挑战，人们提出了众多图像处理算法来恢复和增强水下图像。例如，季等人引入了一种深度学习方法，将图像增强技术与 MobileCenterNet 模型相结合，以有效地检测水下河蟹目标，并在实验中取得了较高的平均精度均值（mAP）。同样，叶等人通过将水下颜色转换方法与神经网络相结合，提出了一种轻量级水下目标检测算法，以解决颜色吸收问题。然而，这些方法往往严重依赖水下图像的固有质量，过度增强可能导致关键图像细节的丢失，从而对检测精度产生不利影响。

最近，研究方向已转向开发专门针对水下目标检测的模型和算法。例如，刘等人提出了 YWnet，以应对在水下环境中检测小而模糊目标的挑战，而周等人则将 CSMB、LKSP 和 YOLOv8 集成，以实现高精度检测。然而，现有方法要么未能充分解决水下环境的独特挑战，要么引入了巨大的计算开销，阻碍了它们的实际应用。

相关工作

水下目标检测

将传统目标检测模型应用于水下环境已取得了有前景的成果。然而，由于水下图像存在高噪声、低对比度、颜色偏差以及目标密集等因素，使得水下图像中的目标检测面临独特的困难。目前主要在两个方向取得了显著进展：通用目标检测方法的进步，以及图像增强与恢复技术的发展。

除了通用目标检测方面，赵等人提出了 YOLOv7 - CHS 模型，该模型融入了上下文 Transformer 模块和无参数注意力机制，用于学习空间和通道相关性，从而提升检测性能。不过，该模型仍存在参数和通道冗余的问题。贾等人（2022 年）提出了改进的 EfficientDet（EDR），它采用深度可分离卷积来促进特征层通道之间的信息融合。然而，其对硬件的依赖性带来了挑战，尤其在计算资源有限的水下环境中。季等人提出了一种协作框架，将图像增强与超高分辨率相结合用于水下目标检测。虽然该框架通过学习多尺度特征图之间的相关性提高了检测效果，但却以牺牲检测速度和增大模型规模为代价。

与此同时，图像增强与恢复技术的研究也有进展。胡等人（2017 年）基于水下偏振成像模型开发了一种透射率校正方法，以纠正由偏振光效应导致的辐照度计算误差。傅等人（2014 年）提出了一种基于 Retinex 的变分框架，通过颜色校正来处理曝光不足的图像。然而，这种迭代优化方法增加了计算复杂度。刘等人（2022 年）将此问题表述为一个多任务优化问题，但该方法需要成对的失真图像和清晰图像进行训练，限制了其实际适用性。尽管图像增强技术做出了有价值的贡献，但对于计算资源受限且有实时性能要求的水下检测设备而言，开发一种准确高效的目标检测算法可能是更实际的方法。如下表所示，大多数研究人员倾向于关注目标检测算法。

我们的研究主要旨在提升模型在水下环境中准确检测和识别目标的能力。为此，我们将可变形注意力模块（夏等人，2022 年）融入 YOLOv8 模型以增强视觉感知能力。此外，我们引入对颜色和纹理等目标特征敏感的 ESPPF 模块，以解决图像中的视觉缺陷问题。CD 模块的使用有效降低了误检和漏检的可能性。最后，我们采用 WIoU v3 作为损失计算函数，以应对边界框回归的挑战，并平衡极端和普通样本。与现有方法相比，我们的模型不仅提高了检测精度，还减少了参数数量并实现了更快的检测速度。

小目标检测

小目标检测是计算机视觉领域的一个关键研究方向，旨在识别和定位图像中像素数量极少的目标。这些目标带来了巨大挑战，原因在于其本身特征有限，可能被遮挡，还可能与较大目标重叠，尤其在水下图像中，这些问题更为突出，因为水下图像往往不完整或模糊。

为应对这些挑战，研究人员提出了各种技术。林等人（2017a）引入了特征金字塔网络，该网络使用多尺度特征图来学习目标细节和位置信息，随后进行特征融合。曹等人（2019）提出了一种基于改进的 Faster - RCNN 算法，通过优化损失函数和感兴趣区域（RoI）池化操作来解决局部偏差问题。陈等人（2017）提出了一种上下文网络模型（ContextNet），并将其应用于 RCNN 模型，不仅裁剪候选区域，还裁剪相应的上下文区域，以提高小目标识别精度。

虽然曹和陈的模型基于两阶段检测算法，但它们计算开销大且检测速度慢，不适合实时检测任务。相比之下，我们提出的 CEH - YOLO 网络是一种轻量级的单阶段模型，能有效满足水下检测任务的需求。它在网络架构的头部融入了 FPN - PAN 结构，在通过 PAN 结构增强定位信息传递的同时，保持 FPN 结构自上而下的语义信息传递。这使得不同大小的特征图既能包含语义信息，又能包含特征信息，从而提升模型在检测小目标方面的性能。

核心工作

网络结构

上图概述了我们研究的完整工作流程，包含两个关键阶段。在初始阶段，我们针对水下目标检测对 YOLO 模型的训练进行定制。我们整合图像与标签数据，并应用诸如水平旋转和饱和度调整等图像增强技术来强化图像数据。将图像调整为特定尺寸，并对标签数据进行相应调整以确保一致性。这些步骤生成了一个更全面、丰富的数据集，从而提高模型的准确性和鲁棒性。然后，该数据集被精心划分为训练集、验证集和测试集，前两者用于模型训练，后者则保留用于准确性评估。训练成功后，我们获得了一个以精度和鲁棒性为优先的先进水下目标检测（UOD）模型。

后续阶段如上图右半部分所示，详细说明了训练好的 UOD 模型的部署与应用。这包括初始化模型的权重和配置文件，随后输入图像或视频帧。在处理之前，输入图像的大小会自适应调整，以匹配训练样本的尺寸。利用训练好的模型，我们的系统生成精确的预测结果，计算置信度分数以量化检测到的目标的可能性，并将它们分类到各自的类别中。最终，系统输出叠加了预测边界框和目标分类的增强图像或帧，从而便于在复杂的水下环境中进行实时监测与分析。

上图展示了创新的 CEH - YOLO 框架，它由三个核心组件构成：主干网络（backbone）、颈部网络（neck）和头部网络（head）。具体而言，为应对水下目标检测的挑战，我们的方法强调检测算法的有效性和鲁棒性。该框架的核心是高阶可变形注意力模块，它能够突出关键的目标信息；以及增强型空间金字塔池化快速模块，它无缝整合多尺度特征以提高检测精度。此外，复合检测模块与辅助检测器相结合，完善预测并提供上下文信息，从而在不增加模型大小的情况下提升模型性能。

受强大的 YOLOv8 架构启发，我们的 CEH - YOLO 框架进行了针对性的策略调整，以克服水下目标检测中固有的独特挑战，如图像模糊以及对小目标或密集目标的敏感度降低等问题。这些有针对性的修改包括用先进的 HDA 模块替代 C2f 模块，集成创新的 ESPPF 模块，并在三个既相互独立又相互关联的复合检测（CD）模块中各自嵌入一个辅助检测器。这些 CD 模块并行运行，每个模块都经过独特配置，以处理不同尺度（大、中、小）的特征图，共同确保对不同大小目标的高效检测。通过采用加权交并比版本 3（WIoU v3）损失函数，我们优先处理中等质量样本并增强训练稳定性，进一步优化网络性能。这些精心的改进使主干网络能够提取并利用高阶空间特征，使 CEH - YOLO 成为应对复杂水下目标检测任务的卓越选择。

高阶可变形注意力模块

HDA 模块采用了夏等人（2022 年）提出的可变形注意力机制，使模型能够精准定位特征图中嵌入的关键目标信息（见下图）。

最初，该模块将输入特征图划分为两个不同的部分，有效减少通道间的相互干扰。随后，每个部分通过卷积层进行细化，从而增强其特征表示。接着使用可变形注意力模块，使模型能够根据特征的相对重要性动态地采样和对齐特征。这种自适应行为是通过引入可学习的偏移量来实现的，这些偏移量会对标准注意力网格进行调整。通过这种调整，模型能够敏锐地聚焦于特定区域或感兴趣的目标。

从注意力机制输出的细化特征图会通过额外的卷积层进一步优化，最终由单个卷积层生成最终输出。通过这一过程，HDA 模块显著提升了模型在高维空间中提取有意义特征的能力，从而具备更强健、更通用的特征学习能力。

可变形注意力模块的工作机制如下图所示，描述如下：输入特征图首先进行处理。随后生成一个均匀的点网格，其中，，是一个超参数。每个网格点的坐标定义在到范围内，然后归一化到区间。

对特征图应用线性变换以获得查询令牌，其中是一个可学习的权重矩阵。然后将此查询令牌输入到偏移网络中，以计算偏移值。为确保训练稳定性并防止偏移量过大，通过双曲正切函数对的幅度进行约束：

CEH-YOLO：基于 YOLO 的水下目标检测复合增强模型

正文

水下目标检测

小目标检测

网络结构

高阶可变形注意力模块

请到「今天看啥」查看全文