以下
文
章来源于微信公众号:
AIWalker
链接:https://mp.weixin.qq.com/s/18X0i6LV_BZbOQ_2mkvZjg
本文仅用于学术分享,如有侵权,请联系
后
台作删文处理
目标检测是CV领域最常用的算法应用,而Yolo是目标检测算法非常经典的算法模型,近日Yolov12算法正式开源,提出
区域注意力模块,
残差高效层聚合网络,性能更好,速度更快,希望对大家学习理解有帮助!
-
论文:
https://arxiv.org/abs/2502.12524
-
代码:
https://github.com/sunsmarterjie/yolov12
本文创新点
这篇论文围绕实时目标检测,在网络架构设计上引入创新,克服了传统注意力机制在实时应用中的速度瓶颈,提升了检测性能。
-
构建注意力中心框架
突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。
-
高效的区域注意力模块
提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。
-
残差高效层聚合网络
引入 R-ELAN 解决注意力机制带来的优化挑战。通过块级残差设计和重新设计的特征聚合方法,增强特征聚合能力,降低模型计算成本和参数 / 内存使用,保证大模型稳定训练。
-
优化基础注意力机制
对基础注意力机制进行多项改进,如调整 MLP 比例、采用卷积算子、去除位置编码并引入大的可分离卷积感知位置信息等,使模型更适配 YOLO 系统的实时性要求,提升综合性能。
本文实验
-
对于N规模模型
,YOLOv12-N在mAP方面分别优于YOLOv6-3.0-N
、YOLOv8-N
、YOLOv10-N
和YOLOv11
3.6
%
、
3.3
%
、
2.1
%
和
1.2
%
,同时保持相似甚至更少的计算量和参数,并实现
1.64
ms/图像的快速延迟速度。
-
对于S规模模型
,YOLOv12-S具有
21.4
G FLOPs和
9.3
M参数,以
2.61
ms/图像的延迟实现了
48.0
mAP。 它分别优于YOLOv8-S
[24]
、YOLOv9-S
[58]
、YOLOv10-S
[53]
和YOLOv11-S
[28]
3.0
%
、
1.2
%
、
1.7
%
和
1.1
%
,同时保持相似或更少的计算量。 与端到端检测器 RT-DETR-R18
[66]
/ RT-DETRv2-R18
[41]
相比,YOLOv12-S 取得了可比拟的性能,但推理速度更快,计算成本更低,参数也更少。
-
对于 M 尺度模型
,YOLOv12-M,具有
67.5
G FLOPs 和
20.2
M 个参数,实现了
52.5
mAP 性能和
4.86
ms/图像的速度。
与 Gold-YOLO-M
[54]
、YOLOv8-M
[24]
、YOLOv9-M
[58]
、YOLOv10
[53]
、YOLOv11
[28]
和 RT-DETR-R34
[66]
/ RT-DETRv2-R34
[40]
相比,YOLOv12-S 表现更优。
-
对于 L 尺度模型
,YOLOv12-L 甚至超过了 YOLOv10-L
[53]
,FLOPs 少了
31.4
G。
YOLOv12-L 以可比拟的 FLOPs 和参数,比 YOLOv11
[28]
的 mAP 高
0.4
%
。
YOLOv12-L 还优于 RT-DERT-R50
[66]
/ RT-DERTv2-R50
[41]
,速度更快,FLOPs 更少 (
34.6
%
),参数也更少 (
37.1
%
)。
-
对于 X 尺度模型
,YOLOv12-X 明显优于 YOLOv10-X
[53]
/ YOLOv11-X
[28]
,分别高出
0.8
%
和
0.6
%
,速度、FLOPs 和参数方面则可比拟。
YOLOv12-X 再次击败了 RT-DETR-R101
[66]