专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
环球物理  ·  【思维导图】中考物理全复习思维导图 ·  18 小时前  
环球物理  ·  【物理动图】初中物理动图合集 ·  昨天  
环球物理  ·  【初中物理】解题技巧+方法总结,非常实用 ·  2 天前  
中科院物理所  ·  原子时的前世今生 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

39 FPS!63 MOTA!专为低功耗设备,全新实时多目标跟踪框架!

计算机视觉工坊  · 公众号  ·  · 2024-11-09 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:HopTrack: A Real-time Multi-Object Tracking System for Embedded Devices

作者:Xiang Li, Cheng Chen, Yuan-yao Lou, Mustafa Abdallah, Kwang Taik Kim, Saurabh Bagchi

机构:Purdue University

原文链接:https://arxiv.org/abs/2411.00608

1. 导读

多目标跟踪(MOT)是计算机视觉领域的一大挑战。尽管MOT在机器人、自动驾驶和智能制造领域有着广泛的应用,但解决在嵌入式设备上运行MOT的具体挑战的文献有限。为高端GPU设计的最先进的MOT追踪器在部署到嵌入式设备上时,通常会遇到低处理速率(< 11fps)。针对嵌入式设备的现有MOT框架提出了一些策略,例如将检测器模型与特征嵌入模型相融合以减少推理延迟,或者组合不同的跟踪器以提高跟踪精度,但是这些策略往往会在一个方面对另一个方面进行折衷。介绍了为嵌入式设备量身定制的实时多目标跟踪系统HopTrack。我们的系统采用了一种新颖的离散静态和动态匹配方法,以及一种创新的内容感知动态采样技术,以提高跟踪精度,同时满足实时要求。与嵌入式设备MobileNet-JDE上的最佳高端GPU修改基线字节(Embed)和最佳现有基线相比,HopTrack在NVIDIA AGX Xavier上实现了高达39.29 fps的处理速度,在MOT16基准上的多对象跟踪精度(MOTA)高达63.12%,分别高出两者2.15%和4.82%。此外,精度的提高还伴随着能耗(20.8%)、功耗(5%)和内存使用(8%)的降低,这些都是嵌入式设备的重要资源。HopTrack也是检测器不可知的,允许即插即用的灵活性。

2. 引言

多目标跟踪(MOT)旨在在视频帧中检测和跟踪多个目标,同时在帧序列中保持每个目标的唯一身份。这通常首先通过对一系列帧运行检测模型来识别目标,然后采用数据关联算法来跨帧链接相同的目标。

MOT的挑战是双重的。首先,帧与帧之间目标的状态和位置可能发生剧烈变化,这主要是由于捕获率低或算法选择性地处理帧所导致的。其次,在拥挤的场景中存在目标间的遮挡问题。

跨帧相同目标的关联通常通过两种方式实现。第一种方法使用恒定速度模型来预测检测帧之后各帧中每个目标的位置。然后,它基于后续帧中实际检测边界框与预测检测边界框的交并比(IoU)构建一个成本矩阵(即完全重叠意味着成本为0,无重叠意味着成本为1)。跨帧的目标关联被表述为一个线性分配问题,其目的是通过将检测到的边界框与具有最高IoU的预测边界框相关联来最小化成本。

另一种方法涉及训练一个特征提取器模型(嵌入),该模型从目标中提取深度特征,并使用这些深度特征通过跨两帧的目标相似性比较来执行关联。最近的发展包括将检测和嵌入模型融合以产生联合检测和嵌入(JDE)模型,以降低延迟。

然而,这些跟踪方法主要依赖于高端GPU。另一方面,越来越多的应用(如自动驾驶、智慧城市监控以及制造业中的多机器人协作)需要准确且快速的多目标跟踪,但由于物理、成本和设计方面的限制,高端GPU并不实用。将计算卸载到边缘服务器或云端是一种补充方法,因为它仍然可以从更高效的本地处理中受益,而我们正是提供了这种处理方法。此外,卸载需要稳定的网络连接,这在我们的目标环境中并不总是可用。

在嵌入式设备上设计MOT系统是具有挑战性的,因为这是一项资源密集型且时间敏感的任务,而这些设备上的资源(如GPU功率和内存)是有限的。现有工作如REMOT、MobileNet-JDE和RTMOVT试图通过利用延迟友好的JDE架构和仅在关键帧上进行检测(其余帧进行跟踪)来解决这些挑战。然而,这些框架在满足实时处理需求的同时难以提供高质量的结果。例如,MobileNet-JDE的运行速度仅为13帧每秒(fps),而RTMOVT在MOT16测试数据集上的跟踪准确率仅为45%。 推荐课程: 扩散模型入门教程:数学原理、方法与应用

我们的解决方案:HopTrack。在本文中,我们提出了一种专为嵌入式设备设计的实时多目标跟踪系统HopTrack。HopTrack带来了三项创新以解决该问题。首先,它根据视频内容特征(例如,具有大量目标和遮挡的复杂场景)动态地对视频帧进行采样以进行检测。然后,它采用两种不同的数据关联策略,即Hop Fuse和Hop Update,用于将检测结果与现有跟踪结果相融合并纠正跟踪错误。HopTrack使用创新的离散静态和动态匹配技术来分析简单的外观特征(如不同通道的像素强度分布),以及一种基于轨迹的数据关联方法,该方法可以在每帧的CPU上高效计算,从而实现实时、高质量的多目标跟踪。

我们在多个数据集(MOT16、MOT17、MOT20、KITTI)上,使用具有代表性的嵌入式设备(NVIDIA AGX Xavier)进行了评估,得出了以下见解:(i)HopTrack在保持实时跟踪(超过24 fps)的同时,在准确性方面优于最先进的技术,最接近的竞争对手是Byte(Embed);(ii)达到这一水平涉及在不同帧上的检测和跟踪之间的微妙相互作用,我们的微基准测试表明,估计不同速度目标的轨迹至关重要;(iii)如果处理主要可以在CPU上并行进行,则这是一个重要的优势;(iv)必须仔细考虑功耗和执行时间,以确定多目标跟踪解决方案是否适合嵌入式平台——HopTrack在内存、功耗和能耗方面达到了最先进水平。我们认识到硬件发展的迅速步伐,但这些进步与我们的研究是独立的。例如,Jetson Orin Nano(2023年3月)提供了20和40 TOPS的版本,与Xavier AGX的32 TOPS相当,但成本降低了四分之一,体积缩小了2.7倍。随着新硬件的出现,我们的框架仍然是一种更经济、空间效率更高的解决方案。

3. 效果展示

图1展示了HopTrack与基线框架在准确性、处理速率、能耗和内存使用方面的均衡性能。圆圈大小表示内存使用情况,圆圈上方的数字表示处理速率(fps)。

表I展示了在高端GPU和嵌入式设备(Jetson AGX)上现有框架的比较分析。

4. 主要贡献

以下是我们的主要贡献总结:

1)我们引入了HopTrack,这是一个为嵌入式设备设计的实时多目标跟踪框架,在嵌入式设备上以约30 fps的速度实现了63.12%的多目标跟踪准确率(MOTA)。

2)我们提出了一种动态且内容感知的采样算法,该算法可以调整检测算法的运行频率。

3)我们提出了一种称为Hop Fuse和Hop Update的两阶段跟踪启发式方法,在MOT16数据集上实现了平均30.61 fps的处理速度和62.91%的平均MOTA,在MOT17数据集上实现了63.18%的MOTA,在MOT20数据集上实现了45.6%的MOTA。

4)我们发布了源代码和模型,供社区访问并在此基础上进行构建。我们在准确性或处理速度(或两者)方面优于嵌入式设备上的所有现有解决方案。

5. 方法

图2展示了HopTrack的系统概述。

该系统主要解决两大挑战:一是基于视频内容特性进行动态帧采样,二是在多帧间进行数据关联。为解决第一个问题,我们设计了一种内容感知的动态采样算法,该算法根据视频内容不断变化的特性来调整采样率。为解决第二个问题,HopTrack执行高效的数据关联,使用基于轨迹的轨迹查找方法逐帧进行轨迹调整,以及基于浅层特征的离散化静态和动态匹配。

图3展示了我们提出的方法。黄色框代表我们感兴趣并希望跟踪的对象,而带有虚线的黄色框则表示前几帧中的先前检测结果。由于卡尔曼滤波器的错误状态或对象运动状态变化等各种因素,跟踪器会偏离感兴趣的对象。三个可能的候选项(用蓝色框表示)要么位于对象的原始轨迹上,要么其投影距离接近原始轨迹;在本轮轨迹匹配过程中,场景中的其余对象将被丢弃。接下来,应用离散化静态匹配进行关联。

我们利用CPU可高效提取的外观特征,以便在多帧间关联具有较大帧间位移的对象,并抑制不准确的轨迹。静态匹配仅在检测帧上与Hop Fuse一同进行,而动态匹配则在每个跳跃帧上与Hop Update一同进行。

在基于JDE的方法或级联检测和嵌入模型方法中,深度特征提取分别需要检测模型的中间层输出或完全独立的嵌入模型。此类特征提取方法在嵌入式设备上逐帧进行成本高昂且不切实际。因此,我们提出结合CPU高效特征提取和对象的运动状态来执行对象身份关联。在Hop Fuse阶段,所选检测器(YOLOX-S)检测对象,并在尽可能紧密地包围对象的边界框的中心标记这些对象。然后,执行静态离散化图像匹配,如图4所示。左侧检测来自n帧前的结果,其中n由当前采样率λ确定,而右侧检测为当前帧的结果。对于静态离散化检测匹配,我们将检测到的对象离散化为[M × N]图像单元,并逐个分析每个图像单元。通过将图像离散化为图像单元并进行像素分析,我们可以从图像中检索结构信息。接下来,计算两个检测中每个对应图像单元(归一化)的像素强度分布的Wasserstein距离。请注意,一维Wasserstein距离计算是在通道分布上进行的,并且不要求图像单元具有相同大小。

如图5所示,在两个帧中可能具有相同身份的对象的边界框,如静态匹配方法所示,被离散化为[M × N]图像单元。左侧显示的是第n帧之前的实际检测结果,而右侧显示的是跟踪器生成的结果。

6. 实验结果

表II详细列出了HopTrack和基线方法的CLEAR指标和处理速率比较。在表II中,HopTrack(Acc)取得了63.12%的最佳MOTA分数,比最佳基线Byte(Embed)高出2.15%。对于IDF1指标,HopTrack(Full)比最佳基线高出2.45%,而对于HOTA指标,我们比最佳基线高出1.65%。尽管REMOT[12]的IDSW数量最低(791),但在假阴性(82903)和较低的IDSW之间存在较大的权衡。除MobileNet-JDE外,所有框架均能实现实时执行。

表III展示了在MOT16测试数据集中,HopTrack(Full)和Byte(Embed)每个测试序列的详细测试结果比较。我们选择Byte(Embed)作为对比对象,因为它在准确性和速度的平衡上是最具竞争力的基线。我们注意到,HopTrack(Full)在总体MOTA上比Byte(Embed)高出1.94%。特别是在从行驶中的公共汽车上拍摄的MOT16-14序列上,改进幅度惊人,接近20%。这一显著的性能提升可归因于创新的基于轨迹的匹配。当对象快速移动(如移动车辆的情况)时,由于多帧间检测边界框之间的低IoU和检测置信度的突然变化,Byte(Embed)在数据关联方面遇到困难。另一方面,HopTrack(Full)通过基于轨迹的查找和离散化匹配继续跟踪对象,这允许在帧间进行准确的身份关联,因此与Byte(Embed)相比具有更优的性能。

为了深入探讨基于轨迹匹配的重要性,我们在禁用基于轨迹匹配的情况下对MOT16数据集进行了相同的测试。我们选择HopTrack(Swift)变体进行比较,因为它以较低的频率进行采样,因此两个检测帧之间的对象位移很大,这增加了身份关联的难度。在表IV中,当禁用基于轨迹的匹配时,所有性能指标都受到影响。特别是,我们发现对于在行驶车辆中拍摄的MOT16-14,基于轨迹的匹配使MOTA、IDF1和HOTA分别提高了7.12%、4.01%和3.91%,并将身份切换减少了14.5%。为了进一步证明基于轨迹匹配的有效性,我们将测试扩展到自动驾驶视频片段。

7. 总结 & 未来工作

我们提出了HopTrack,这是一个在资源受限的嵌入式设备上实现实时多目标跟踪的框架。HopTrack通过创新的基于轨迹的数据关联和离散化静态及动态匹配,实现了对快速移动对象的准确跟踪。为处理复杂场景并增强对遮挡的鲁棒性,HopTrack结合了创新的内容感知动态采样,以在遮挡期间改进对象状态估计。HopTrack通过提高处理速率(每秒帧数)和准确性,超越了现有方法(即Byte(Embed)和MobileNet-JDE)。我们的实验表明,HopTrack在NVIDIA Jetson AGX上以63.12%的MOTA和39.29 fps的低资源消耗在MOT16测试数据集上实现了最先进的性能。此外,HopTrack的检测器无关特性使其能够轻松与轻量级检测器集成,成为具有有限计算资源和严格延迟要求的现实世界应用的理想跟踪器。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球







请到「今天看啥」查看全文