无惧遮挡！无惧不准确深度值！CAMOT：多目标跟踪最新SOTA！

3DCV · 公众号 · · 2024-10-04 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：CAMOT: Camera Angle-aware Multi-Object Tracking

作者：Felix Limanta, Kuniaki Uto, Koichi Shinoda

机构：Tokyo Institute of Technology

原文链接：https://arxiv.org/abs/2409.17533

1. 摘要

本文提出了CAMOT，一种简单的摄像机角度估计器，用于多目标跟踪，以解决两个问题:1)遮挡和2)深度方向上不准确的距离估计。假设每个视频帧中有多个对象位于一个平面上，CAMOT使用对象检测来估计摄像机角度。此外，它给出了每个对象的深度，使伪3D运动。我们通过将其添加到MOT17和MOT20数据集上的各种2D MOT方法来评估其性能，并确认其有效性。将CAMOT应用于ByteTrack，我们在MOT17中获得了63.8%的HOTA、80.6%的MOTA和78.5%的IDF1，这是最先进的结果。其计算成本明显低于现有的基于深度学习的深度估计器进行跟踪。

2. 引言

多目标跟踪（MOT）是一项在视频中跨空间和时间检测并跟踪目标物体，同时保持身份一致性的任务。它被应用于多种场景，如自动驾驶和视频监控。其标准范式包含两个阶段：1）目标检测，即检测每一帧中的单个目标；2）关联，即将检测结果随时间关联起来，为每个目标形成一条轨迹。本文重点关注MOT在监控中的应用。

在真实场景中，MOT面临诸多挑战。一个显著的问题是目标物体常被其他物体遮挡，导致检测失败。另一个问题是当两个物体在深度方向上对齐时，无法精确估计它们之间的距离，这可能导致不同帧间目标关联错误。

如果我们知道每个物体的深度，就可以解决这两个问题。为此，Khurana等人将基于深度学习的深度估计器嵌入到MOT框架中。虽然这在一定程度上解决了遮挡问题，但距离不精确的问题仍需解决。此外，深度估计器可能需要显著的计算成本。

本文提出CAMOT（Camera Angle-aware Multi-Object Tracking，相机角度感知多目标跟踪），一种用于MOT的简单相机角度估计器，以解决上述问题。假设每个视频帧中的多个物体位于同一平面上，CAMOT利用目标检测来估计相机角度。该方法提供了每个物体的深度信息，解决了遮挡问题，同时测量了深度方向上的距离，使不同帧间的目标关联更加准确。CAMOT计算效率高，可作为各种MOT方法的插件组件使用。

通过在MOT17和MOT20数据集上的各种2D MOT方法中添加CAMOT，我们评估了其性能，并证实了其有效性。例如，当应用于Byte-Track时，它在MOT17上取得了63.8%的HOTA、80.6%的MOTA和78.5%的IDF1的领先结果。在计算成本方面，在配备单个A100 GPU的机器上，CAMOT达到了24.92 FPS的速度，高于现有用于跟踪的基于深度学习的深度估计器的不足10 FPS的速度。

3. 效果展示

4. 主要贡献

本文的主要贡献如下：

我们提出了一种轻量级的相机角度估计器，该估计器利用目标检测位置。

我们利用相机角度和每个物体的深度信息，在2D MOT中关联不同帧间的目标。

我们通过将CAMOT添加到各种2D MOT方法中，对其进行了评估。

5. 方法

CAMOT理念的阐释。我们假设多个物体位于同一平面上，利用目标检测来估计相机角度。每个边界框的大小表示每个物体的深度，而边界框的分布则告诉我们相机的角度。在此，我们描述了估计相机仰角θ和物体三维坐标集P的方法。CAMOT通过为所有目标检测回归一个共同平面来同时估计角度和物体深度。目标检测除了告诉我们物体在图像上的位置外，它们的分布还告诉我们相机的角度。例如，从地面角度拍摄的图像中的物体会集中在一条水平线上，而角度较高的图像中的物体会分布得更均匀。

我们可以利用目标检测来估计物体的深度，进而估计相机的角度。我们的算法概述如下：

1、选择在当前帧t中使用的边界框。

2、当θt未达到最优，即迭代误差ε(t,u)大于阈值τε时，按以下步骤进行迭代u ← u + 1：
(a) 为当前迭代设置θ(t,u)值。
(b) 使用θ(t,u)估计三维物体点P(t,u)i。
(c) 从P(t,u)i回归一个具有法向量n(t,u)的平面，并计算平面角度θ(t,u)n。
(d) 评估此次迭代的角度估计过程误差ε(t,u)。

3、对θt进行角度平滑处理。

4、使用最优的θt值计算当前帧中所有物体的Pti。

然后，我们定义以下概念：对于每个物体i，角度αi定义为主轴与rit之间的角度，而角度γi定义为rit与rib之间的角度。在图3中，我们可以利用由物体和射线形成的三角形中的角度属性来计算从原点到物体的距离。