专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
掌上春城  ·  “新毒株”来袭?专家解答! ·  3 天前  
掌上春城  ·  昆明,TOP10! ·  3 天前  
猎卷  ·  猎卷书单:每周法律新书 ·  4 天前  
最高人民检察院  ·  习近平致信中国法学会第九次全国会员代表大会 ·  4 天前  
最高人民检察院  ·  检察机关依法分别对赵其宏、强建海提起公诉 ·  6 天前  
51好读  ›  专栏  ›  3DCV

超越YOLOv10等全部网络!DS MYOLO:目标检测算法新皇登基!

3DCV  · 公众号  ·  · 2024-09-06 11:00

正文

点击下方卡片,关注「3DCV」公众号
选择星标,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

近年来,深度学习的飞速发展持续为物体检测领域注入新活力。在自动驾驶场景中,实时检测和准确识别交通标志及车辆身份对于提升驾驶系统的安全性至关重要。然而,在驾驶场景中,目标物体的尺度和大小往往存在显著差异,导致视觉特征不佳且易受噪声干扰。这使得物体检测成为自动驾驶中最具挑战性的任务之一。卷积神经网络(CNN)凭借其参数共享和优化的硬件加速能力,在实时物体检测器中取得了显著进展。然而,其局部关注特性使得在驾驶场景中有效捕捉不同尺度的目标变得困难,从而限制了其性能。因此,开发高性能的实时物体检测器是一项重要而有意义的工作。

过去,通用物体检测范式主要聚焦于基于CNN的两阶段检测网络,如Faster R-CNN、Mask R-CNN和Cascade R-CNN。然而,两阶段检测器中候选区域提案的预生成往往导致实时性能不足。近年来,物体检测研究逐渐转向端到端的单阶段检测算法,如YOLO、SSD、CornerNet和FCOS。单阶段检测模型具有更简单的架构,特别是YOLO系列模型,在速度和准确性之间实现了令人称道的平衡,引起了学术界和工业界的广泛关注。

YOLO网络,特别是从YOLOv3开始,通常包含三个主要结构:骨干网(backbone)、颈部(neck)和头部(head)。骨干网从输入图像中提取深层特征。例如,YOLOv3、YOLOX、YOLOv7和YOLOv8使用Darknet-53,而YOLOv4和YOLOv5则使用CSPDarknet-53。YOLOv6采用EfficientRep,YOLOv9则使用轻量级的GELAN。颈部结构融合了多尺度特征以增强多尺度表示能力。SPPELAN优化了多尺度特征提取效率,而PAN则基于FPN增强了特征融合。头部结构将颈部特征进行解码以生成最终检测结果,从基于锚点(如YOLOv5、YOLOv7)演变为更高效的无锚点(如YOLOv6、YOLOv8、YOLOv9)和无NMS(YOLOv10)设计。

基于Transformer编码器-解码器架构的物体检测器,如DETR系列,利用自注意力机制的全局特征建模能力,实现了与最先进检测器相当的性能。然而,其二次计算复杂度在平衡速度和准确性方面带来了挑战。受注意力机制有效性的启发,基于CNN的通道注意力机制,如SE、ECA及其变体,也展现出了显著的增益。最近的研究表明,基于状态空间模型(SMMs)的方法,如Mamba,由于其强大的全局建模能力和线性复杂度优势,在视觉任务中取得了显著成功。

受先前工作的启发,我们提出了一种名为DS MYOLO的新型物体检测器。该检测器集成了简化的自愿扫描融合块(SimVSS Block)以实现深层全局特征融合,并引入了高效的卷积算子(ECAConv)以解决标准卷积(SC)在跨通道交互中的不足。我们在公开可用的CCTSDB 2021交通标志数据集和VLD-45车辆徽标数据集上验证了DS MYOLO的优越性。实验结果表明,DS MYOLO在与同类规模的最新检测器相比时表现出强大的竞争力。

下面一起来阅读一下这项工作~

1. 论文信息

标题:DS MYOLO: A Reliable Object Detector Based on SSMs for Driving Scenarios

作者:Yang Li, Jianli Xiao

机构:上海理工大学

原文链接:https://arxiv.org/abs/2409.01093

2. 摘要

准确的实时目标检测提升了高级驾驶辅助系统的安全性,成为驾驶场景中的关键组成部分。随着深度学习技术的快速发展,基于卷积神经网络(CNN)的YOLO实时目标检测器受到了广泛关注。然而,CNN的局部关注特性导致了性能瓶颈。为了进一步提升检测器的性能,研究人员引入了基于Transformer的自注意力机制以利用全局感受野,但其二次复杂度带来了高昂的计算成本。最近,具有线性复杂度的Mamba通过全局选择性扫描取得了显著进展。受Mamba出色性能的启发,我们提出了一种新型目标检测器:DS MYOLO。该检测器通过简化的选择性扫描融合块(SimVSS Block)捕获全局特征信息,并有效整合网络的深层特征。此外,我们还引入了一种高效的通道注意力卷积(ECAConv),它在保持低计算复杂度的同时增强了跨通道特征交互。在CCTSDB 2021和VLD-45驾驶场景数据集上的广泛实验表明,DS MYOLO在同类规模的YOLO系列实时目标检测器中展现出显著潜力和竞争优势。

3. 效果展示

4. 主要贡献

我们的贡献可以概括如下:

1)为了进一步通过特征融合提升检测性能,我们设计了一个简化的自愿扫描融合块(SimVSS Block)以实现深层全局特征融合。该块由串联的状态空间模型(SMM)和前馈网络组成,并通过残差连接进行增强,有效整合了全局和局部特征。

2)我们提出了一种高效的通道注意力卷积算子(ECAConv)。通过在卷积后解耦通道并执行跨通道注意力交互,ECAConv显著建立了通道间的依赖关系并增强了表示能力,同时保持了与SC相似的计算复杂度。推荐学习:国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

3)我们基于提出的SimVSS Block和ECAConv进一步设计了不同尺度的DS MYOLO(-N/-S/-M)实时物体检测器。在CCTSDB 2021和VLD-45交通场景数据集上,DS MYOLO与现有最先进的实时物体检测器相比展现出了稳健的竞争力。

5. 基本原理是啥?

DS MYOLO的总体架构如图1所示。在主干网络中,Stem由顺序堆叠的SC(空间卷积)、批归一化和SiLU激活函数组成,并进行了两次下采样,从而生成一个尺寸为(H/4, W/4)的二维特征图,并具有Ci个通道。为了在主干网络中有效提取丰富的特征,我们采用步长为2的ECAConv进行下采样,并使用ECACSP进一步提取丰富的局部特征。我们的目标检测模型在颈部网络之前引入了一个融合层。该融合层使用三个SimVSS块,在保持较低计算复杂度的同时,实现了特征层{P3, P4, P5}的深度融合。在颈部网络中,我们遵循PAFPN方法,使用3×3的SC以步长为2进行下采样,并通过ECACSP进一步整合局部特征。我们采用了一种实用的解耦头部和无NMS(非极大值抑制)设计,该设计能够有效地解码输入中的小、中、大目标,从而实现跨不同尺度的有效检测。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了一种针对驾驶场景的新型高性能目标检测器,命名为DS MYOLO。所设计的SimVSS模块有效增强了深度网络中的特征融合。此外,提出的Efficient Channel Attention Convolution(ECAConv)显著增强了跨通道特征交互。在CCTSDB 2021交通标志数据集和VLD-45车辆标志数据集上进行了大量实验,结果表明,我们的DS MYOLO在同等规模的YOLO系列实时目标检测器中达到了最高性能,并表现出强大的竞争力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

推荐文章
掌上春城  ·  “新毒株”来袭?专家解答!
3 天前
掌上春城  ·  昆明,TOP10!
3 天前
猎卷  ·  猎卷书单:每周法律新书
4 天前
最高人民检察院  ·  检察机关依法分别对赵其宏、强建海提起公诉
6 天前
人力资源心理学  ·  什么叫工作到位?
8 年前
基层麻醉网  ·  ASA知识更新专题之产科麻醉知识更新
7 年前