专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

IEEE'24 无人机时空模型的飞跃！如何提高空中车辆识别准确率？

3D视觉工坊 · 公众号 · · 2024-10-23 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的数据集，用于研究在交通监控应用中针对空中车辆检测的时空模型。研究表明，通过引入具有时间上下文的修改架构和输入结构，可以显著提高检测性能。此外，利用同一输入流中的帧差异信息可以在计算开销小的情况下，显著提升整体性能。文章还嵌入了两种注意力机制，以增强时空模型的学习能力，尤其是在少数类物体的识别上。最后，研究指出了在更大规模数据集上进行实验的必要性，以提高对各种卡车和公交车的检测精度，并强调了对交通监控应用中变换器模型的进一步研究的需求。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Spatiotemporal Object Detection for Improved Aerial Vehicle Detection in Traffic Monitoring

作者：Kristina Telegraph, Christos Kyrkou

作者机构：KIOS Research and Innovation Center of Excellence, University of Cyprus.

论文链接：https://arxiv.org/pdf/2410.13616

2. 摘要

本研究通过开发时空目标检测模型，提出了多类车辆检测的进展，使用无人机摄像头。该研究引入了一个包含6600幅注释序列帧图像的时空车辆检测数据集（STVD），这些图像由无人机捕获，能够全面地训练和评估算法以实现整体的时空感知。基于YOLO的目标检测算法经过增强，以结合时间动态，从而在性能上优于单帧模型。将注意力机制集成到时空模型中进一步增强了性能。实验验证显示出显著进展，最佳的时空模型相比于单帧模型提高了16.22%的性能，并证明了注意力机制具有进一步性能提升的潜力。

3. 效果展示

来自时空车辆检测（STVD）数据集的图示图像。(a)该数据集涵盖了城市和农村不同地点的不同复杂环境。它有roundbabouts，高速公路和城市环境与二级公路。它还捕获不同大小的车辆，如公共汽车和普通客车。(b)更重要的是，它捕捉车辆运动的时间流。

推理测试时空模型的感兴趣区域比较。

推理测试关注时空模型的感兴趣区域比较。

4. 主要贡献

一个包含6600幅序列帧图像的时空车辆检测数据集（STVD），这些图像经过细致注释，涵盖三种不同的车辆类别：“轿车”、“卡车”和“公交车”。该数据集- - 是利用在塞浦路斯共和国地理范围内的不同道路网络段由无人机获取的航空录像创建的。
探讨如何扩展YOLOv5目标检测框架，以处理时空数据，通过架构增强和输入表示的变化来涵盖时间动态，从而提高性能，优于单帧模型。
我们证明，将注意力机制引入时空模型可以进一步改善性能。通过一系列实验，我们研究了不同模型，通过定量和定性分析，检查了类别特定的性能。时空模型的结果显示出显著进展，最佳时空模型相比于单帧模型提高了16.22%的性能。实验还表明，将注意力机制纳入时空模型架构有潜力进一步提升结果。

5. 基本原理是啥？

在计算机视觉领域，时空模型（Spatiotemporal Models）旨在同时利用空间信息（即图像中的视觉特征）和时间信息（即视频帧之间的动态变化），以提高目标检测和追踪的准确性：

时空特征提取 ：时空模型通过分析视频序列中的连续帧，提取出物体的动态特征。这包括物体在不同时间点的位置变化、运动轨迹等信息，从而更好地理解场景中的动作。
帧对比分析 ：通过比较相邻帧之间的差异，模型能够识别出物体的运动和变化。这种方法可以帮助模型在复杂的环境中辨别出目标物体，即使在光照变化或遮挡的情况下。
注意力机制 ：在时空模型中引入注意力机制，可以使模型在处理数据时更关注重要的时间和空间特征，从而增强对目标物体的识别能力，尤其是在处理少数类目标时。推荐课程：如何快速上手全球最强开源飞控px4？
数据增强 ：使用时空增强技术，如随机选择和排列帧，可以提高模型对不同场景和条件的适应性。这种方法有助于提升模型的泛化能力。
网络架构 ：时空模型通常采用卷积神经网络（CNN）与循环神经网络（RNN）或变换器（Transformer）相结合的方式，以便同时捕捉空间特征和时间序列信息。

6. 实验结果

静态模型调查 ：

比较了YOLOv5、YOLOv8和RT-DETR模型在静态数据集上的性能。结果表明，YOLOv5和YOLOv8在检测精度方面表现相近，但YOLOv5在效率上更优，适合实时资源受限的应用。
对于小物体的检测，Transformer基础的模型（如RT-DETR）在准确性上仍落后于YOLO模型，且推理速度较慢。

时空模型验证 ：

使用三种时空模型进行验证，结果显示所有时空模型在mAP50上均优于单帧模型。两流模型的总体性能提升最大，帧对模型和差异模型也分别提高了8.81%和13.43%。
在具体类别中，所有时空模型在“汽车”类别上略有提高，而“卡车”和“公交车”类别的检测精度也有所改善。其中，Two-Stream模型在“公交车”类别上提升最大。

注意力时空模型 ：

引入注意力机制后，所有注意力模型的性能相较于标准模型都有所提高。特别是两流-C3SE-head模型在“卡车”类别上的mAP50提升明显。
然而，注意力机制对“卡车”类别的性能却有显著下降，表明可能存在误分类情况。

推理结果 ：

时空模型在检测“汽车”类别时的置信度得分较单帧模型更高，在“公交车”的定位上也表现更佳。即使在阴影条件下，时空模型依然能够准确定位目标。
注意力时空模型在检测时展现出更好的定位和置信度，但也存在误分类的情况。

性能/速度分析 ：

所有时空模型的推理时间普遍高于单帧模型，但帧对模型与帧对和差异模型的推理速度仅略高，且性能提升显著。
在性能与速度之间的权衡方面，帧对和差异模型提供了最佳的折中方案。

7. 总结 & 未来工作

本文介绍了一个新颖的数据集，用于研究交通监控应用中的航空器检测的时空模型。研究表明，添加时间上下文的额外修改架构和输入结构可以显著提高检测性能。还观察到，利用同一输入流中帧差的额外运动信息可以在计算开销很小的情况下大幅提升整体性能，相较于仅使用一系列成对图像。此外，在时空模型的不同层次中嵌入了两种注意力机制。从定量和定性结果来看，注意力机制确实有潜力增强时空模型的学习能力，尤其是在少数类的情况下。

在未来的工作中，应在包含更多各类卡车和公交车的大型数据集上对时空模型进行实验，以改善学习并在所有类别中实现同样高的准确性。这需要获取更多样化的数据，以有效解决这一问题。利用照片级真实感的模拟器为生成针对性数据以补充不足的情况提供了有希望的途径。此外，值得研究和探讨可以应用于时间数据而不改变时空依赖性的时间增强技术，以提高模型的学习效果。最后，本工作强调了进一步研究交通监控应用中变换器模型的必要性。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如