专栏名称: 江大白

专业有趣的AI内容平台，关注后回复【算法】，获取45家大厂的《人工智能算法岗江湖武林秘籍》

YOLO再进化！MHAF-YOLO多尺度融合，检测性能飙升（附论文及源码）

江大白 · 公众号 · · 2025-02-27 08:00

正文

以下文章来源于微信公众号：集智书童

作者：小书童

链接：https://mp.weixin.qq.com/s/AuLRegAqieU-ER_6NpHd-g

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

本文提出了一种改进的YOLO目标检测框架 MHAF-YOLO，通过多分支辅助特征金字塔网络增强特征融合。它引入表面辅助融合和高层辅助融合模块，优化了低层和高层特征的结合，并通过GHFKS和RepHMS机制扩展感受野。MHAF-YOLO在COCO数据集上实现了48.9%的AP，参数量大幅减少，性能提升明显。

由于PAFPN在多尺度特征融合方面的有效性，它已成为基于YOLO检测器中广泛采用的组件。然而，PAFPN在整合High-Level语义线索与Low-Level空间细节方面存在困难，限制了其在实际应用中的性能，尤其是在存在显著尺度变化的情况下。

在本文中，作者提出了MHAF-YOLO，这是一种具有多分支辅助特征金字塔网络（MAFPN）灵活设计的检测框架，该网络由两个关键模块组成：表面辅助融合（SAF）和High-Level辅助融合（AAF）。SAF通过融合浅层特征，有效地以高保真度传递关键的Low-Level空间信息。同时，AAF在更深层的 Neck 层中整合多尺度特征信息，向输出层提供更丰富的梯度信息，进一步增强了模型的学习能力。

为了补充MAFPN，作者引入了全局异构灵活核选择（GHFKS）机制和重新参数化的异构多尺度（RepHMS）模块以增强特征融合。RepHMS全局集成到网络中，利用GHFKS为不同的特征层选择更大的卷积核，扩展垂直感受野，并在空间层次间捕捉上下文信息。局部上，它通过在同一层中处理大和小卷积核来优化卷积，扩展横向感受野，并保留检测小目标所需的关键细节。

MHAF-YOLO的小型版本在COCO上实现了48.9%的AP，仅使用7.1M参数，相比YOLO11s减少了24.4%，同时性能提升了1.9%。此外，MHAF-YOLO在实例分割和旋转目标检测方面均表现出卓越的性能和泛化能力。

代码链接：https://github.com/yang-0201/MHAF-YOLO

论文链接：https://arxiv.org/pdf/2502.04656

1. 引言

近年来，为了实现高性能的实时目标检测，开发了多种算法。其中，从YOLOv1到YOLO11的一系列YOLO算法，由于它们在速度和精度之间的折中，在目标检测领域发挥着越来越重要的作用。

特征金字塔网络（FPN）[19]采用自上而下的架构，将高层语义信息丰富到低层特征中，有效地生成多尺度特征图。在FPN的基础上，路径聚合特征金字塔网络（PAFPN）[20]引入了自下而上的路径，使得来自低层的精确定位信息能够更有效地向上传递。这种增强提高了特征金字塔的整体定位能力。此外，由于其简单高效的融合机制，PAFPN在YOLO系列模型中得到广泛应用。在图1(a)中，层P2-P5代表 Backbone 网络不同层级的输出信息。YOLO系列模型的 Neck 结构采用传统的PAFPN，其中包含两个用于多尺度特征融合的主要路径。然而，作者发现PAFPN仍然存在两个显著的局限性。

首先，PAFPN结构主要关注合并相似尺度的特征图，但在有效处理和整合来自不同分辨率层的多尺度信息方面存在不足。这种保守的特征融合方法可能会阻碍模型在各个层面充分参与的能力，可能导致深层中详细信息的丢失，并在每个尺度上产生过于简单的结果。例如，在PAFPN的Block1中，输入将上采样的P5层与相邻的P4层合并，忽略了P3层中存在的关键浅层、Low-Level空间细节。同样，在Block2中，与P2层的直接融合明显缺失，这对于捕捉小目标细节至关重要。这种不足在Block3和Block4中也有所体现，限制了特征融合过程的整体有效性。

其次，小目标检测层的架构策略采用单一路径自上而下和两个相关块的设计。这种配置显著降低了模型有效学习和表示小物体特征的能力，因为小目标检测层缺乏来自额外特征层的充足补充信息。此外，PAFPN中的每个特征提取模块通常由改进的跨阶段部分网络（CSPNet）[21]和固定的卷积组成，这限制了网络的灵活性并限制了其捕获更大感受野的能力。在实际应用中，这些限制可能导致PAFPN在同时分布或密集小物体场景中具有不同尺度的物体时表现不佳。例如，在图1(b)和(c)中，与本文提出的MAFPN相比，带有PAFPN的YOLOv10模型在密集小人群中的激活水平显著较低。

作者进行了广泛的实验以验证MHAFYOLO的有效性，通过扩展模型规模，提供了轻量级-Nano、Tiny、Small和Meduim变体，以适应不同的应用场景。如图2所示，MHAFYOLO在参数更少和计算成本更低的情况下实现了最高的准确率，超越了所有最先进的（SOTA）YOLO检测器。降低的计算负载在计算资源有限的设备上尤其有价值。

本文的主要贡献总结如下：

• 作者提出了一种新的即插即用型 Neck 结构，称为多分支辅助特征金字塔网络（MAFPN），以实现更丰富的特征交互和融合。在MAFPN中，浅层辅助融合（SAF）通过双向连接保持浅层 Backbone 信息，增强了网络检测小目标的能力。此外，High-Level辅助融合（AAF）通过多向连接丰富了输出层的梯度信息。此外，MAFPN可以无缝集成到任何其他检测器中，以增强其多尺度表示能力。
• 作者设计了具有高参数利用率的Reparameterized Heterogeneous Multi-Scale RepHMS模块。该模块通过并行执行大核卷积和多个小核卷积来扩展感知范围，同时不增加额外的推理成本，并保留对小物体的信息。RepHMS可以无缝集成到 Backbone 网络或FPN中，从而提升任何网络的表现。
• 作者提出了一种全局异构灵活核选择（GHFKS）机制，通过调整网络不同分辨率特征层中的RepHMS核大小，自适应地扩大整个网络的有效感受野。
• 多分支异构辅助融合YOLO（MHAFYOLO）以其极高的参数利用率，在COCO数据集的目标检测任务中实现了最先进的性能，超越了现有的实时目标检测器。此外，MHAFYOLO在实例分割和旋转目标检测方面也表现出优异的性能，展示了其强大的泛化能力。

2. 方法

2.1 宏观架构

如图4所示，作者将一阶段目标检测器的宏观架构分解为三个主要部分：Backbone 网络、 Neck 和 Head 。在提出的MHAF-YOLO中，输入图像首先通过 Backbone 网络，该网络由四个阶段组成：P2、P3、P4和P5。MAFPN被设计为 Neck 结构。在第一个自底向上的路径中，SAF模块负责从 Backbone 网络提取多尺度特征，并在 Neck 浅层进行初步辅助融合。同时，AAF通过第二路径中的密集连接从每个深层层收集梯度信息，最终引导 Head 在三个分辨率上获取多样化的输出信息。上述两种结构都采用RepHMS模块进行特征提取，无缝集成GHFKS概念，利用动态大小的卷积核，在不同层之间实现自适应感受野。最后，检测 Head 根据每个尺度的特征图预测目标边界框及其对应类别，以计算其损失。

2.2 全局自适应异构柔性核选择机制

一个重要的因素是，transformers的有效性归功于它们的自注意力机制，该机制在全局或更大的窗口范围内执行 Query - Key-Value 操作。同样，大型卷积核可以捕捉局部和全局特征，而使用适度大的卷积核来增加有效感受野已被多项工作证明是有效的。Trident Network [25] 进行的研究表明，对于检测较大物体，具有较大感受野的网络更受欢迎，而较小尺度的目标则从较小的感受野中受益。YOLOMS [14] 引入了异构核选择（HKS）协议的概念。在主干网络中采用3、5、7和9的增量卷积核设计以平衡性能和速度。受此启发，作者将该工作扩展到全局异构灵活核选择（GHFKS）机制，将异构大卷积核的概念整合到整个MHAF-YOLO架构中。除了主干网络中RepHMS的逐步增加的卷积核外，作者还引入了5、7和9的大卷积核到MAFPN中，以适应不同分辨率的需求，从而逐步获得多尺度感知场信息。

2.3 多分支辅助特征金字塔网络

精确定位依赖于浅层网络提供的详细边缘信息，而精确分类则需要更深层网络来捕捉粗粒度信息[3]。作者认为，一个有效的特征金字塔网络（FPN）应该支持浅层和深层网络信息流的充分和充分融合。

2.3.1. 表面辅助融合

在 Backbone 网络中保留浅层空间信息对于增强对小物体的检测能力至关重要。然而， Backbone 网络提供的信息相对基础且易受干扰。因此，作者将浅层信息作为辅助分支融入更深层的网络中，以确保后续层学习的稳定性。遵循这些原则，作者开发了SAF模块，如图5所示。SAF的主要目标是整合 Backbone 网络中多尺度特征层嵌入的深层信息与浅层空间信息，旨在保留丰富的定位细节以增强网络的空间表示。

此外，作者使用卷积来控制浅层信息中的通道数，确保在concat操作中占比较小，同时不影响后续学习。令，和表示不同分辨率的特征图，其中，和分别表示 Backbone 网络的特征层和MAFPN的两个路径。符号表示上采样操作。代表全局平均池化，Down表示带有批量归一化层的下采样卷积，代表silu函数，Conv表示控制通道数的卷积。应用SAF后的输出结果如下：

2.3.2. High-Level辅助融合

为进一步提升特征层信息的交互利用，作者在MAFPN的深层使用AAF模块进行多尺度信息集成。具体来说，图6展示了中的AAF连接，涉及浅层高分辨率层、浅层低分辨率层、同级浅层以及前一层之间的信息聚合。

此时，最终输出层P4可以同时合并来自四个不同层次的信息，从而显著提升中等大小目标的性能。AAF还采用卷积控制通道来调节每一层对结果的影响。通过实验，作者发现当采用SAF中的策略，即三个浅层层的通道数设置为深层层通道数的一半时，会导致性能略有下降。借鉴FPN的传统单路径架构，作者推测初始引导信息已经嵌入到MAFPN的浅层中。因此，作者将每一层的通道数相等化，以确保模型获得多样化的输出。应用AAF后的输出结果如下：

在上一节设计了MAFPN结构之后，另一个挑战在于高效地设计整个架构中的特征提取模块。本节提出了一个强大的编码器架构设计，该架构能够高效地学习具有表达力的多尺度特征表示，并具有极高的参数利用率。RepHMS的结构如图7(a)所示。最初，输入信息经过卷积和Split操作，产生N个信息流。第一个分支保留原始的浅层信息。从第二个分支开始，输入信息通过M个级联块来增强特征提取能力。结合ELAN的思想，每个块的输出都被保留并集成到最终的输出层。

此外，每个分支都包含了级联的概念，使得即使是并行分支也能从上一个分支接收浅层信息，从而丰富了梯度流。最后一个分支输出最深层次的信息，最终的拼接和卷积操作整合并输出不同分支的信息。通过调整系数 M 和 N，作者可以轻松控制 RepHMS 的特征提取能力。RepHMS 尽可能地保留了每个分支中的梯度流信息，并通过级联连接逐步整合来自前一层的更深层次信息。随着过程的进行，分支中的信息变得越来越多样化，特征提取也变得更加彻底，最大限度地优化了信息的表示。因此，RepHMS 模块可以无缝集成到任何High-Level检测器中，显著提升其性能。

如图7(b)所示，每个块由多个深度可分离卷积（DW convolutions）组成，并结合先进的重新参数化技术以实现高参数效率。第一个卷积用于扩展通道数，每个RepHConv之后跟随一个点卷积以补偿深度可分离卷积的性能损失。最后的卷积用于缩放通道数。

2.5. 重新参数化的异构深度可分离卷积

首先，作者在全局架构中采用了深度可分离卷积和大型核来实现上述GHFKS机制。作者的研究还表明，虽然较大的卷积核可能通过编码更广泛的区域来提高性能，但它们可能会无意中掩盖与小型目标相关的细节，从而留下进一步改进的空间。因此，作者将全局架构中的异构思想转移到单个卷积中，并引入了重新参数化的概念[26, 27, 28]，以实现RepHConv。具体来说，作者通过同时运行大核和小核卷积来补充小型目标的检测。不同尺寸的卷积核增强了网络的ERF和特征的多样化表示。

如图7(b)和(c)所示，该块在训练和推理过程中表现出一定的差异。在训练过程中，网络运行n个不同大小的并行深度卷积(DWConv)操作，而在推理过程中，这些卷积被合并成一个，从而不会降低推理速度。作者认为RepHDWConv是一种更优的卷积策略，它以最小的损失提升了多尺度下的表示能力。

7 x 7 RepHDWConv的重参化步骤如图8所示。其中，μ、σ、γ、β分别表示BN层的累积均值、标准差以及学习到的缩放因子和偏置。代表RepHDWConv的参数。表示输入特征图，和表示使用核的卷积的权重和偏置。

首先，在RepHDWConv中，一个的大DWConv和多个的小DWConv将被并行化。每个DWConv后面跟着一个批量归一化（bn）层。然后，每个卷积核的参数将与对应bn层的参数合并。

设和分别代表BN融合后的卷积操作的参数和偏置。提取融合的参数和得到：

然后，融合了bn层后的卷积层可以表示为：

在第二步中，通过填充将许多小的DWConv等价于一个大的DWConv，然后进行重新参数化。这些异构DWConv的参数和偏置通过累积构建，得到新的RepHDWConv，其输出特征图为：

其中且是满足的最大整数。

3. 实验

3.1 实验设置

数据集。为了验证所提方法的有效性，作者在三个权威的公开基准数据集上进行了实验，涉及三个不同的任务：目标检测、实例分割和旋转目标检测。所使用的数据集如下：

• MS COCO [29]。COCO数据集由微软于2014年发布，旨在提供一个大型且具有挑战性的多任务图像数据集。作者使用train2017集（包含118,287张用于训练的图像）和val2017集（包含5,000张用于验证的图像）在该数据集上评估了目标检测任务。此外，作者还对COCO数据集进行了实例分割，以评估MHAF-YOLO的多元任务能力。
• Pascal VOC [30]。作者遵循了大多数主流VOC数据集配置，该配置包含20个类别，使用train2012、val2012、train2007和val2007数据集进行模型训练，共计16,551张图像。包含4,952张图像的test2007集用于验证和测试。
• DOTA-v1.0 [31]。DOTA-v1.0 是一个专门为遥感图像中的旋转目标检测设计的数据库，包含 2,806 张图像，涵盖 15 个类别，共有 188,282 个实例。作者采用默认配置，使用 1,411 张图像作为训练集，458 张图像作为验证集，937 张图像作为测试集。

3.2 实施细节

目标检测与实例分割。作者的实现基于YOLOv10框架。对于目标检测任务，所有实验均在4块NVIDIA GeForce RTX 2080Ti GPU上完成，MHAF-YOLO的所有尺度均从头开始训练了500个epoch，没有依赖其他大规模数据集，如ImageNet [32]或预训练权重。作者主要遵循YOLOv10的设置，并使用SGD优化器进行训练，并将原始的mixup数据增强策略替换为RTMDet [11]中的更先进的cached-mixup策略，并使用了低概率 Copy-Paste [33]方法。最后10个epoch关闭了这些强烈的数据增强策略。对于实例分割任务，作者遵循了YOLOv8、RTMDet和YOLO11的配置，仅将MHAF-YOLO的目标检测Head修改为实例分割头以适应此任务。作者还使用了与目标检测任务相同的超参数配置和训练epoch，从零开始训练模型。