专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
51好读  ›  专栏  ›  3DCV

TPAMI'25开源 | 清华新作Hyper-YOLO:集成超图实现更强的目标检测!精度暴涨12%!

3DCV  · 公众号  ·  · 2025-02-04 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation

作者:Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Jun-Hai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao

机构:Tsinghua University、Xi’an Jiaotong University、Shanghai University、, Xiamen University

原文链接:https://arxiv.org/abs/2408.04804

代码链接:https://github.com/iMoonLab/Hyper-YOLO

1. 导读

我们介绍了超YOLO,一种新的目标检测方法,它集成了超图计算来捕捉视觉特征之间复杂的高阶相关性。传统的YOLO模型虽然功能强大,但其颈部设计存在局限性,限制了跨级别特征的集成和高阶特征相互关系的利用。为了应对这些挑战,我们提出了超图计算支持的语义收集和分散(HGC-SCS)框架,该框架将视觉特征图转置到语义空间,并构建了一个用于高阶消息传播的超图。这使得模型能够获得语义和结构信息,超越了传统的以特征为中心的学习。超级YOLO在其主干中加入了提议的混合聚合网络(MANet)以增强特征提取,并在其颈部引入了基于超图的跨级别和跨位置表示网络(HyperC2Net)。HyperC2Net跨越五个尺度运行,打破了传统的网格结构,允许跨级别和位置的复杂高阶交互。这种组件的协同作用将超YOLO定位为各种规模模型中的最先进的架构,正如其在COCO数据集上的优异性能所证明的那样。具体来说,超YOLO-N的性能明显优于先进的YOLOv8-N和YOLOv9-T,高出12%。

2. 效果展示

coco数据集对比

3. 主要贡献

1)我们提出了超图计算增强语义收集和散射(HGC-SCS)框架,通过高阶建模和学习增强视觉主干。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

2)利用拟议的HGC-SCS框架,我们开发了HyperC2Net,这是一种目标检测颈部,它促进了语义层和位置的高阶消息传递。HyperC2Net显著提高了颈部在提取高阶特征方面的能力。3)我们提出了混合聚合网络(MANet),它包含了三种类型的块来丰富信息流,从而增强了主干网的特征提取能力。

4)我们提出了Hyper-YOLO,它结合了超图计算,以增强模型的高阶信息感知能力,从而改进目标检测。具体来说,我们的Hyper-YOLO-N在COCO数据集上取得了显著的改进,平均精度值(APval)提高了12%,与YOLOv8-N相比提高了9%,与YOLOv9-T相比提高了9%

4. 方法

我们的Hyper-YOLO框架保持了典型YOLO方法的整体架构,包括主干网络和颈部网络。给定一张图像,Hyper-YOLO的主干网络采用我们提出的MANet作为其核心计算模块,从而增强了YOLOv8中传统C2f模块的特征辨识能力。与传统YOLO架构不同,Hyper-YOLO整合了五个主要特征集{B1, B2, B3, B4, B5}的集合。在一个创新性的步骤中,基于超图计算理论的Hyper-YOLO颈部网络(HyperC2Net)整合了这些五重特征集之间的跨层级和跨位置信息,最终生成了三个不同尺度上的最终语义特征{N3, N4, N5}。这些分层结构的语义特征随后被用于最终的物体检测任务。

5. 实验结果

6. 总结 & 未来工作

我们提出了Hyper-YOLO,这是一个开创性的在这篇论文中,目标检测模型,它将超图计算与YOLO架构相结合,以利用视觉数据中高阶相关性的潜力。通过解决传统YOLO模型固有的局限性,特别是颈部设计无法有效整合不同层次的特征和利用高阶关系,我们在目标检测领域取得了显著的进展。我们的贡献为未来的目标检测框架研究和开发设定了新的基准,并为进一步探索基于我们的HGC-CSC框架在视觉架构中整合超图计算铺平了道路。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文