专栏名称: 集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

小目标检测神器 | 基于 YOLO11 的动态图形神经网络用于小目标检测和跟踪 !

集智书童 · 公众号 · · 2025-03-08 09:00

正文

点击下方卡片，关注「集智书童」公众号

点击加入👉 「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识 👉 「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF 」

行业技术方案 👉 「 AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉 「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

准确检测和跟踪小目标，如行人、骑自行车的人和摩托车，对于交通监控系统至关重要，这对提高道路安全以及智能交通系统中的决策具有重要意义。

然而，传统方法面临诸如遮挡、低分辨率以及动态交通条件等挑战，需要创新的方法来解决这些问题。本文介绍了DGNN-YOLO，这是一个将动态图神经网络（DGNN）与YOLO11相结合的新颖框架，用于提高交通监控系统中小目标检测和跟踪的性能。

该框架利用YOLO11的高级空间特征提取能力进行精确目标检测，并集成DGNN动态建模空间-时间关系以实现实时跟踪。通过构建和更新图结构，DGNN-YOLO有效地将目标表示为节点，将目标之间的互动表示为边，从而确保在复杂和动态环境中进行自适应和准确跟踪。

大量实验表明，在各种交通条件下，DGNN-YOLO在检测和跟踪小目标方面始终优于最先进的方法，实现了最高的精确度（0.8382）、召回率（0.6875）和[email protected]:0.95（0.6476），展示了其鲁棒性和可扩展性，特别是在涉及小和遮挡物的情况下。

本研究提供了一个可扩展的实时交通监控和分析解决方案，为智能交通系统做出了重要贡献。

1 Introduction

智能交通系统（ITS）的快速发展已经彻底改变了交通管理和城市出行方式。ITS涵盖了众多技术，以提高道路安全、减少拥堵，并在城市环境中实时做出决策。ITS的关键方面之一是检测和跟踪小型物体，如行人、自行车和摩托车，这对于诸如交通监控、事故预防以及自动驾驶等应用至关重要。然而，由于遮挡、低分辨率、变量照明条件和高度物体密度，小型目标检测和跟踪仍然具有挑战性，传统的检测方法在动态现实世界场景中不足以满足需求（Nguyen和Patel，2021年）。

早期的目标检测和跟踪方法主要依赖手工设计的特征和传统的机器学习算法。这些方法在各种条件和动态交通环境中往往难以实现泛化（Brown和Wilson，2019）。深度学习的出现引入了诸如卷积神经网络（CNNs）等现代目标检测框架，通过直接从数据中学习复杂的空间特征，实现了显著的性能提升（Zhang和Chen，2020）。然而，CNNs在模拟时间关系方面存在固有的局限性，这对在视频帧之间跟踪目标至关重要（Li和Wang，2022）。为了解决这些问题，图神经网络（GNNs）作为一种建模空间-时间关系和动态捕捉目标间交互的有前景的方法（Wang和Zhao，2021）逐渐浮现。

这篇论文介绍了一种新颖的框架DGNN-YOLO，它将YOLO11用于小目标检测和动态图神经网络（DGNN）用于跟踪。YOLO11是YOLO家族的一种高级迭代版本，针对实时应用进行了优化，在交通场景中检测小目标表现出卓越性能（Ultralytics，2024a）。DGNN模块通过动态构建图结构，其中节点表示检测到的目标，边捕捉它们的空间-时间关系。这种集成允许在复杂和动态的环境中在视频帧之间进行强大的跟踪（Ahmed和Johnson，2023）。

DGNN-YOLO框架在_i2目标检测数据集上进行了评估，该数据集是专门为交通监控应用设计的一个基准数据集，重点关注小型物体。该数据集包括各种交通场景和挑战，如遮挡和不同的光照条件，使其成为测试提出的系统处理实际世界挑战的能力的理想选择。结果表明，与最先进的方法（Chen和Kumar，2023）相比，DGNN-YOLO在提高检测准确率和跟踪鲁棒性方面具有有效性。

本研究的主要贡献如下：

作者提出了一种新颖的DGNN-YOLO框架，该框架将YOLO11与DGNN相结合，用于实时检测和跟踪小目标，解决了遮挡和运动模糊等挑战。
本文介绍了一种动态图构建与更新机制，以有效模拟时空关系，提高在复杂交通环境中的跟踪精度。
提出的框架被广泛使用i2 Object Detection Dataset进行评估，与现有方法相比在检测和跟踪小型目标方面取得了显著的性能提升。

2 Related Work

近年来，由于遮挡、低分辨率和高动态环境等挑战，小型目标检测和跟踪领域取得了显著进展。准确检测和跟踪小型物体对于诸如交通监控和自主系统等应用至关重要；

然而，传统方法往往在复杂实际场景中难以进行泛化。深度学习的最新进展催生了对小型目标检测和动态交互建模的专门技术，而采用GNNs为跟踪任务捕捉时空关系提供了有效方法。本文回顾了这些领域的发展关键，为所提出的框架奠定了基础。

Small Object Detection

由于遮挡、低分辨率以及尺度变化，小目标检测一直是一个持续的挑战，特别是在交通监控中。早期的方法依赖于手工特征，如直方图方向梯度（HOG）和尺度不变特征变换（SIFT），并结合分类器，如支持向量机（SVMs）（Dalal和Triggs，2005；Lowe，2004）。尽管这些方法在受控环境下表现良好，但在复杂真实世界场景中，由于照明和运动引入了变化（Viola和Jones，2001），它们往往无法正常工作。

深度学习的出现彻底改变了目标检测。Ren等人推出了Faster R-CNN，这是一个结合区域 Proposal 网络和卷积层的两阶段检测器，旨在提高准确性和速度（Ren等人，2015年）。Redmon等人进一步推动了实时检测，使用YOLO，这是一个将检测和分类任务集成的单阶段框架（Redmon等人，2016a）。

然而，早期的YOLO版本由于依赖于粗糙的特征图，在检测小型目标（如行人、自行车、摩托车等）时存在困难。随后的迭代，如YOLOv3和YOLOv4，通过集成多尺度特征融合和改善 Anchor 点机制，解决了这些限制（Redmon和Farhadi，2018；Bochkovskiy等人，2020年）。在这些改进的基础上，YOLO11引入了注意力机制和细粒度特征提取，显著增强了在动态环境中的检测能力（Ultralytics，2024b）。这些特性使得YOLO11成为城市交通监控系统的理想候选者，特别是用于检测小型目标，如行人、自行车、摩托车、各种车辆（包括自动小巴和覆盖货车）。

除了YOLO，其他框架，如RetinaNet，也采用了聚焦损失来解决类别不平衡问题，而单次多框检测器（SSD）则使用多尺度特征图进行精确的定位（Lin等人，2017年；刘等人，2016a）。尽管它们有这些优点，但在低光、雨天和交通拥堵等条件下实现实时检测仍然是一个挑战（黄和张，2021年）。新兴的基于 Transformer 的架构，如检测 Transformer （DETRs），在处理小目标检测方面显示出前景，尽管它们的高计算要求限制了其实际部署（Carion等人，2020年）。

Object Tracking

跟踪交通监控中的小目标涉及到在连续帧中保持其身份，通常在具有遮挡、突然运动和密集交通环境等具有挑战性的条件下进行。早期的方法，如卡尔曼滤波器和粒子滤波器，依赖于运动建模，但在处理现实世界交通场景的动态和不可预测性质方面存在困难（卡尔曼，1960；Isard和Blake，1998）。Bolme等人引入了MOSSE跟踪器，该跟踪器在计算效率方面取得了显著提高，但在处理严重的遮挡方面效果不佳。

深度学习方法在目标跟踪方面取得了显著进展。例如，Bertinetto等人提出，对偶网络利用相似性学习实现鲁棒的目标关联（Bertinetto等人，2016）。同样，Wang等人利用长短时记忆（LSTM）网络建模时间依赖性，并解决了视频序列中运动预测的挑战（Wang和Song，2019）。

混合框架，如SORT和DeepSORT，通过集成运动和外观特征来实现检测和跟踪（Bewley等人，2016年；Wojke等人，2017年）。尽管这些方法在相对简单的环境中有效，但在涉及多个相互作用物体的密集交通场景中，如摩托车、人力车和自动人力车，它们存在局限性。Transformer基础的跟踪器如TransTrack通过建模帧间的长期依赖关系，进一步推动了该领域的发展，尽管在拥挤的交通设置下的可扩展性仍然是一个挑战（Chen和Zhang，2018年）。

Graph Neural Networks in Object Tracking

GNNs 作为一种强大的框架，已逐渐成为跟踪任务中建模时空关系的有力工具。通过将检测到的物体表示为节点，将它们之间的互动表示为边，GNNs 能够有效地捕获连续帧之间的依赖关系，使其非常适合动态环境（Yan等人，2018年）。Kipf等人提出了DGNNs，它们根据物体的运动和互动自适应地调整图结构，从而显著提高了跟踪性能的基准测试。

在交通监控中，自适应图构建被证明在解决遮挡和复杂物体交互等问题方面具有重要作用。例如，TrackMPNN利用消息传递算法动态优化物体关联，从而在复杂的城市交通环境中实现强大的跟踪（Rangesh和Kumar，2020）。Ahmed等人（Ahmed和Wang，2023）将动态图更新纳入跟踪鲁棒性的增强策略，以应对密集和拥挤的环境。

最近，通过将注意力机制集成到GNN中，进一步提升了GNN的性能，增强了它们在拥挤场景中建模精确关系的的能力。例如，AST-GCN动态构建图来捕捉时空关联，而DGNN则将节点特定的注意力权重引入，以提高关联准确性（Chen和Zhang，2022年；赵和徐，2023年）。这些创新表明GNN在实时交通监控系统中解决跟踪小物体（如行人、自行车、摩托车、人力车和新能源汽车）等关键挑战的潜力。

3 Methodology

所提出的交通监控系统中检测和跟踪小目标的系统包括四个相互关联的组件，旨在解决诸如遮挡、低分辨率和高运动模糊等挑战。DGNN-YOLO提供了检测和跟踪机制的高层集成，以处理实时处理需求。YOLO11检测机制是用于在复杂交通环境中识别小目标的最新模块。动态图构建利用动态图结构表示检测到的目标及其时空关系，实现交互的自适应建模。最后，基于DGNN的跟踪模块使用DGNN在帧间细化目标关联，从而确保了强大的准确跟踪。这些组件使得视频数据处理高效，并在多样化和具有挑战性的交通条件下实现了可靠的性能。

Notations

该部分介绍了研究中使用的符号和背景信息。表1详细列出了常用的符号及其定义，清晰地说明了所提出的DGNN-YOLO的数学和结构组件。这些符号构成了描述YOLO11与DGNN融合及其在交通监控中小目标检测和跟踪应用的基础。

3.1.1 Input Video and Object Detection

输入视频序列可以表示为 ,其中表示总帧数。每一帧都会被YOLO11处理，生成一组检测到的物体，。在这个表示中，指的是物体的边界框坐标和尺寸，表示物体的置信度得分，表示其检测的确定性，而表示物体的类别标签，将其识别为类似于“自动三轮车”或“公交车”这样的物体。YOLO11还为所有检测到的物体提取了空间特征( )，这对于跟踪是必要的。这些空间特征包含了几何和外观信息，被输入到基于图的跟踪机制中。

3.1.2 Dynamic Graph Construction

在每一帧时刻，构建一个动态图来表示检测到的物体及其相互作用。节点对应于检测到的物体，每个节点由一个特征向量表示，该特征向量融合了空间和时间特征。边捕获物体之间的关系，包括空间接近度和运动相似度，这些信息编码在邻接矩阵中，其中表示节点和之间的边权。随着物体进入或离开场景，图动态演变，实现对物体位置和运动模式变化的实时更新，从而确保模型始终对动态交通状况保持响应。

3.1.3 Node and Edge Features

每个图中的节点由特征向量表示，其中捕获了YOLO11提取的空间特征以编码几何和外观信息，表示由DGNN计算的时间特征以模拟物体位置和随时间变化的相互作用。节点之间的边根据三个因素进行加权（）：（1）接近度，计算为节点和之间的欧几里得距离；（2）速度相似度，由它们在时间处的速度差（）确定；（3）外观，使用边界框特征推导出的视觉相似度以确保在视觉复杂场景中的稳健关联。

3.1.4 Spatial-Temporal Interaction

提出的DGNN-YOLO模型通过两个关键组件实现有效目标跟踪，这两个组件分别是：

首先， 空间特征 （）通过YOLO11从每个物体中提取几何和外观信息，实现精确的局部定位和识别。其次， 时间动态 （）由DGNN计算得出，表示连续帧中物体位置和相互作用的演变，使模型能够理解运动模式。此外，边能够动态更新以反映物体关系随时间的变化，确保在复杂且快速变化的环境中实现强大的跟踪。

3.1.5 Loss Functions

DGNN-YOLO框架优化了两个损失函数，以确保准确的检测和强大的跟踪。 检测损失函数 （）通过惩罚框定位和分类中的错误来评估目标检测的准确性，从而确保每个帧中物体的精确识别。 跟踪损失函数 （）最小化帧间物体身份的不一致性。它关注于在动态构建的图中保持边缘和节点特征的一致性，以确保强大的时空关联。

3.1.6 Real-Time Processing and Regions of Interest

该系统逐帧处理视频帧，关注预定义的感兴趣区域（），以提高效率。这种方法优先考虑具有显著交通活动的区域，使DGNN-YOLO能够集中计算资源。通过限制处理范围为相关区域，系统显著降低了计算开销，同时保持了检测和跟踪的高精度。这种优化确保了DGNN-YOLO在实时场景中有效运行，即使在物体密度高和动态条件的环境中。

Overview of the Proposed Framework

图1 说明了 DGNN-YOLO 框架，它将 YOLO11 用于检测小目标，并将 DGNN 用于有效跟踪。该框架从视频输入开始，YOLO11 识别目标，绘制边界框，并分配置信度分数。这些检测被转换为动态图，其中节点表示目标，边表示它们的运动、接近和视觉相似性。DGNN 随视频的进行动态更新此图，以保持准确的跟踪，即使目标重叠或移动不可预测。最后，该模型结合邻居聚合、特征投影和语义融合，提供具有详细跟踪和分类的标注输出。这种端到端方法确保在交通场景中最可靠的表现。