专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

IROS'24 | 无处可逃！SFTrack：小而快！快速提升无人机小物体跟踪精度！

3D视觉工坊 · 公众号 · · 2024-10-30 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新颖的目标跟踪方法SFTrack，针对无人机(UAV)视频中的独特挑战，采用了三种简单有效的策略，尤其是在处理低置信度检测、小规模物体和无人机运动方面表现出色。通过在VisDrone2019、UAVDT和MOT17等多个广泛认可的数据集上进行评估，SFTrack在多个指标上显著超越了现有的先进方法。此外，文章还对UAVDT数据集的注释错误进行了识别和修正，提供了一个增强版本的数据集，以便于更准确的基准测试。整体而言，SFTrack展现了在复杂环境中提高目标跟踪精度的强大能力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects

作者：Inpyo Song and Jangwon Lee

作者机构：Sungkyunkwan University

论文链接：https://arxiv.org/pdf/2410.20079

2. 摘要

本文研究了无人机（UAV）视频中的多目标跟踪问题，这在交通监控系统、警方实时追踪嫌疑人等无人机应用中具有关键作用。然而，由于无人机的快速运动以及高空和广角视角下目标物体的尺寸较小，此任务极具挑战性。为了解决这些问题，我们提出了一种简单却更有效的方法，相较于以往的工作更加高效。我们的方法引入了一种新的跟踪策略，从无人机应用场景中常见的低置信度检测结果开始跟踪目标物体。此外，我们建议重新审视基于外观的传统匹配算法，以改善低置信度检测的关联效果。为了评估我们方法的有效性，我们在两个无人机特定数据集（VisDrone2019、UAVDT）以及一个通用目标跟踪数据集（MOT17）上进行了基准测试。结果表明，我们的方法优于当前的先进方法，突显了其在多样化跟踪环境中的鲁棒性和适应性。此外，我们对UAVDT数据集的标注进行了改进，纠正了原始标注中的一些错误和遗漏之处。我们将提供该数据集的改进版本，以便为该领域的基准测试提供更好的支持。

3. 效果展示

低空视频跟踪结果对比。(a)没有运动补偿（MC）的ByteTrack无法保持轨迹。(b)BoTSORT的MC会导致边界框变形。(c)SFTrack与无人机MC，确保一致和准确的跟踪。推荐课程：零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战] 。

这张图片提供了原始无人机和我们改进的无人机注释的比较可视化。原始注释中与实际对象不对应的错误将以“红色”突出显示。“黄色”标记代表我们对Refined UAVDT数据集中可见对象的附加注释。

4. 主要贡献

我们提出了一种适用于无人机多目标跟踪的方案，能够有效应对无人机固有的挑战，包括快速且不规则的运动、小尺度物体和遮挡等问题。
我们引入了一种从低置信度检测开始跟踪的新策略，在无人机场景中尤其有效。为管理这些低置信度检测，我们建议重新审视基于手工设计特征的传统外观匹配算法。
我们在多个数据集上对我们的方法进行了全面评估，包括VisDrone2019、UAVDT和MOT17，展示了其有效性和卓越的性能。
我们识别并修正了UAVDT数据集中缺失和错误的标注，贡献了更准确的评估并促进了进一步研究。

5. 基本原理是啥？

该方法的基本原理围绕三个关键策略展开，以提高无人机视频中的目标跟踪效果。这些策略主要集中在如何更好地处理小目标、低置信度检测，以及无人机运动带来的挑战。

低置信度检测的利用 ：传统跟踪方法通常会忽略置信度较低的检测结果，而本方法则充分利用这些低置信度检测，以避免遗漏小目标或快速移动的物体。通过引入低置信度检测，能有效减少漏检，提高整体跟踪精度（MOTA和IDF1指标）。
自适应关联策略 ：为了应对无人机在飞行过程中可能遇到的复杂视角变化和快速移动，本方法结合了基于传统外观特征的匹配算法，适用于频繁出现低置信度检测的情况。这种方法在连续帧之间维持较高的身份保持能力，不易因光线变化和视角偏移而丢失目标。
无人机运动补偿 ：由于无人机视频中的相机运动较大，本方法引入了一种专门为无人机设计的运动补偿技术（UAV Motion Compensation, UAV MC），通过保持目标的纵横比来改善运动带来的目标形变，从而提升跟踪的稳定性。

这三种策略的结合，使得该方法在无人机特定场景下表现出色，特别是在跟踪小目标和快速运动物体时，能提供更加平衡和可靠的跟踪表现。

6. 实验结果

实验结果表明，本文提出的SFTrack方法在多个基准数据集上显著优于现有方法，尤其是在无人机(UAV)数据集上的表现更加突出。

与现有方法的对比

VisDrone2019和UAVDT数据集 ：在这些无人机数据集中，SFTrack在大多数评估指标上都优于其他方法。例如，与表现最好的ByteTrack相比，SFTrack的多目标跟踪准确率（MOTA）提高了4.9%；与在IDF1指标上表现最好的FOLT相比，SFTrack的IDF1分数提升了5.2%。这证明SFTrack在跟踪准确度和身份保持方面的表现优越。
MOTA与IDF1的权衡 ：尽管SFTrack在降低漏检（FN）上表现优异，但也带来了一定的误检（FP）增加。这种权衡来自于SFTrack方法中低置信度检测的使用和传统外观匹配算法的应用。然而，与其他先进方法相比，SFTrack的跟踪表现更加平衡，尤其在无人机场景中，保证目标不被漏检往往比短暂误检更为关键。

困难场景测试

小目标和快速移动物体 ：在VisDrone2019数据集中，SFTrack在包含大量小目标和快速移动物体的视频中表现尤为出色。具体而言，SFTrack在平均相对加速度（Mean Relative Acceleration，MRA）较高的场景中展示了显著的性能提升，能够更好地应对快速移动的物体。
高海拔和视角变化的场景 ：在Refined UAVDT数据集上，SFTrack在高空飞行（70米以上）和视角频繁变化的条件下，超过了次优方法，展示了更强的鲁棒性和适应性。

MOT17数据集评估

在MOT17（非无人机）数据集上，SFTrack同样表现出色。特别是在不同检测器（YOLOX和YOLOX Nano）的应用下，SFTrack在低置信度检测频繁的情况下仍能有效工作。尤其是在使用性能较低的YOLOX Nano时，SFTrack能够有效处理检测性能下降带来的更多低置信度检测。

消融实验

通过消融实验，研究了SFTrack中各个组件的影响，验证了每个模块的改进效果：

无人机运动补偿（UAV MC） ：用保持纵横比的无人机运动补偿方法替换BoTSORT的运动补偿技术后，MOTA提升了1.4%，IDF1提升了3.7%。
低置信度检测的初始化 ：增加了低置信度检测的初始化，使MOTA和IDF1分别提高了3.2%。
外观匹配策略 ：使用传统外观匹配算法后，MOTA和IDF1分别又增加了1.7%和0.2%。

尽管这些改进对跟踪速度有轻微影响，SFTrack依然可以达到每秒10帧的跟踪速度，尤其在后续优化（如C语言实现）中，速度有望进一步提升。

7. 总结 & 未来工作

在本研究中，我们提出了一种新颖的关联方法，通过三个简单而有效的策略来进行目标跟踪，重点解决无人机视频中的独特挑战。我们的方法针对低置信度检测提出的策略，能够有效地应对小尺度目标的跟踪以及无人机运动的管理。在多个基准上，我们的方法优于现有的主流方法，并在VisDrone2019、UAVDT和MOT17等广泛认可的数据集上进行了验证。此外，我们还识别并修正了UAVDT数据集中现有的标注错误。增强版的数据集将公开发布，为该领域提供更为准确的基准资源。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。