专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

YOLOv4、v7、v9作者亲自解读！从YOLOv1到YOLOv10的全面回顾！

计算机视觉工坊 · 公众号 · · 2024-08-23 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

目标检测是计算机视觉领域的一项基础任务，能够支持广泛的下游任务。例如，它可以辅助实例分割、多目标跟踪、行为分析与识别、人脸识别等。因此，在过去几十年中，它一直是热门的研究课题。近年来，随着移动设备的普及，在边缘端进行实时目标检测的能力已成为各种现实应用中的必要组成部分。此类应用的任务包括自动驾驶、工业机器人、身份验证、智能医疗、视频监控等。在众多实时目标检测算法中，近年来开发的YOLO（You Only Look Once）系列（从v1到v10）尤为突出，它对计算机视觉领域的研究产生了广泛而深远的影响。本文将回顾YOLO系列技术及其对当代实时计算机视觉系统发展的影响。

在目标检测领域，首个取得突破性成功的基于深度学习的方法是RCNN。R-CNN是一种两阶段目标检测方法，将目标检测过程分为两个阶段：候选区域生成和候选区域分类。R-CNN首先使用常用于图像处理的选择性搜索来提取候选区域，在此阶段，CNN仅作为特征提取器来提取候选区域的特征。至于识别部分，则使用SVM。随后的Fast R-CNN和Faster R-CNN分别使用SPPNet来加速特征提取，并提出了区域提议网络（RPN），逐渐将目标检测转变为端到端的形式。2015年，Joseph Radmon提出了YOLO，它使用网格预测来一步完成目标检测，这是一种开创性的方法，将实时目标检测领域提升到了一个新的高度。随后发展的经典单阶段目标检测系统包括SSD、RetinaNet、FCOS等。尽管单阶段目标检测方法能够实现实时检测，但在准确性上仍与两阶段方法存在差距。然而，RetinaNet和YOLOv3等单阶段检测系统在此问题上取得了显著进展，均达到了足够的准确性。YOLO系列已成为工业界以及所有需要实时目标分析的学术界和研究中心的首选方法。2020年，scaled-YOLOv4进一步设计了一种非常有效的目标检测模型缩放方法，首次在通用目标检测领域使单阶段目标检测方法的准确性超过了所有当代的两阶段方法，这一成就也引发了许多基于YOLO系列方法的后续相关研究。推荐学习：国内首个面向三维点云高阶班实战课程！

除了目标检测外，YOLO系列还作为开发实时系统的基础，被应用于计算机视觉的其他领域。目前，在实例分割、姿态估计、图像分割、3D目标检测、开放词汇目标检测等领域，YOLO在实时系统中仍发挥着关键作用。

在本综述文章中，我们将按顺序介绍以下问题：

• YOLO系列方法及重要相关文献的介绍。

• YOLO系列方法对当代计算机视觉领域的影响。

• 在不同计算机视觉领域应用YOLO的重要方法。

1. 论文信息

标题：YOLOv1 to YOLOv10: The fastest and most accurate real-time object detection systems

作者：Chien-Yao Wang, Hong-Yuan Mark Liao

原文链接：https://arxiv.org/abs/2408.09332

2. 摘要

这是一篇关于YOLO系列系统的全面综述。与以往的文献调查不同，本文将从最新的技术角度重新审视YOLO系列的特性。同时，我们也分析了YOLO系列如何继续影响和推动实时计算机视觉相关研究，并引导计算机视觉和语言模型的后续发展。我们深入探讨了YOLO系列在过去十年中提出的方法如何影响后续技术的发展，并展示了YOLO在各领域的应用。我们希望本文能在后续实时计算机视觉发展中发挥良好的指导作用。

3. 总结 & 未来工作

在本文中，我们介绍了YOLO系列多年来的发展演变，从现代目标检测技术的角度对这些技术进行了回顾，并指出了它们在各阶段的关键贡献。我们从易用性、精度提升、速度提升以及在各领域中的通用性等方面分析了YOLO对现代计算机视觉领域的影响。最后，我们介绍了YOLO在各领域中的相关模型。本文的目的是通过这篇综述文章，使读者不仅能够从YOLO系列的发展中得到启发，还能更好地理解如何开发各种实时计算机视觉方法。我们也希望为读者提供YOLO可用于的不同任务以及未来可能的发展方向的一些思路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。