0. 论文信息
标题:Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
作者:Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Jun-Hai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao
机构:Tsinghua University、Xi’an Jiaotong University、Shanghai University、, Xiamen University
原文链接:https://arxiv.org/abs/2408.04804
代码链接:https://github.com/iMoonLab/Hyper-YOLO
1. 导读
我们介绍了超YOLO,一种新的目标检测方法,它集成了超图计算来捕捉视觉特征之间复杂的高阶相关性。传统的YOLO模型虽然功能强大,但其颈部设计存在局限性,限制了跨级别特征的集成和高阶特征相互关系的利用。为了应对这些挑战,我们提出了超图计算支持的语义收集和分散(HGC-SCS)框架,该框架将视觉特征图转置到语义空间,并构建了一个用于高阶消息传播的超图。这使得模型能够获得语义和结构信息,超越了传统的以特征为中心的学习。超级YOLO在其主干中加入了提议的混合聚合网络(MANet)以增强特征提取,并在其颈部引入了基于超图的跨级别和跨位置表示网络(HyperC2Net)。HyperC2Net跨越五个尺度运行,打破了传统的网格结构,允许跨级别和位置的复杂高阶交互。这种组件的协同作用将超YOLO定位为各种规模模型中的最先进的架构,正如其在COCO数据集上的优异性能所证明的那样。具体来说,超YOLO-N的性能明显优于先进的YOLOv8-N和YOLOv9-T,高出12%。
2. 效果展示
coco数据集对比
3. 主要贡献
1)我们提出了超图计算增强语义收集和散射(HGC-SCS)框架,通过高阶建模和学习增强视觉主干。
推荐课程:
面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
。
2)利用拟议的HGC-SCS框架,我们开发了HyperC2Net,这是一种目标检测颈部,它促进了语义层和位置的高阶消息传递。HyperC2Net显著提高了颈部在提取高阶特征方面的能力。3)我们提出了混合聚合网络(MANet),它包含了三种类型的块来丰富信息流,从而增强了主干网的特征提取能力。
4)我们提出了Hyper-YOLO,它结合了超图计算,以增强模型的高阶信息感知能力,从而改进目标检测。具体来说,我们的Hyper-YOLO-N在COCO数据集上取得了显著的改进,平均精度值(APval)提高了12%,与YOLOv8-N相比提高了9%,与YOLOv9-T相比提高了9%
4. 方法
我们的Hyper-YOLO框架保持了典型YOLO方法的整体架构,包括主干网络和颈部网络。给定一张图像,Hyper-YOLO的主干网络采用我们提出的MANet作为其核心计算模块,从而增强了YOLOv8中传统C2f模块的特征辨识能力。与传统YOLO架构不同,Hyper-YOLO整合了五个主要特征集{B1, B2, B3, B4, B5}的集合。在一个创新性的步骤中,基于超图计算理论的Hyper-YOLO颈部网络(HyperC2Net)整合了这些五重特征集之间的跨层级和跨位置信息,最终生成了三个不同尺度上的最终语义特征{N3, N4, N5}。这些分层结构的语义特征随后被用于最终的物体检测任务。
5. 实验结果
6. 总结 & 未来工作
我们提出了Hyper-YOLO,这是一个开创性的在这篇论文中,目标检测模型,它将超图计算与YOLO架构相结合,以利用视觉数据中高阶相关性的潜力。通过解决传统YOLO模型固有的局限性,特别是颈部设计无法有效整合不同层次的特征和利用高阶关系,我们在目标检测领域取得了显著的进展。我们的贡献为未来的目标检测框架研究和开发设定了新的基准,并为进一步探索基于我们的HGC-CSC框架在视觉架构中整合超图计算铺平了道路。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、