专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

顶刊 IJCV | 一种通用的基于事件的插件模块，用于降级条件下的视觉目标跟踪

小白学视觉 · 公众号 · · 2024-07-29 10:05

正文

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ”

重磅干货，第一时间送达

A Universal Event-Based Plug-In Module for Visual Object Tracking in Degraded Conditions

一种通用的基于事件的插件模块，用于降级条件下的视觉目标跟踪

Jiqing Zhang, Bo Dong, Yingkai Fu, Yuanchen Wang, Xiaopeng Wei, Baocai Yin, Xin Yang

摘要

基于RGB/灰度图像帧的大多数现有跟踪器可能因传统传感器在某些挑战性场景下的不可靠性（例如，运动模糊和高动态范围）而崩溃。事件基相机作为生物启发传感器，以高时间分辨率和高动态范围编码亮度变化，从而为在降级条件下的跟踪提供了相当大的潜力。然而，事件缺乏RGB/灰度图像帧提供的细粒度纹理线索。这种互补性鼓励我们将来自帧域和事件域的视觉线索融合起来，以在各种具有挑战性的条件下进行稳健的目标跟踪。在本文中，我们提出了一种新颖的事件特征提取器，通过增强不同时刻状态之间的交互和区分变化来捕获事件基数据中的时空特征和运动线索。此外，我们开发了一种有效的特征整合器，通过平衡它们的贡献来适应性地融合两个域的优势。我们提出的模块作为插件，可以轻松地应用于现成的基于帧的跟踪器。我们在三个数据集上广泛验证了通过我们的方法扩展的八种跟踪器的有效性：EED、VisEvent和我们收集的基于帧-事件的数据集FE141。实验结果还表明，基于事件的数据是跟踪的强大线索。

关键词

事件基相机，视觉目标跟踪，多模态融合，插件模块

1 引言

视觉目标跟踪是计算机视觉中的一个基础但具有挑战性的主题，其目标是在视频序列的每一帧中预测目标状态。基于卷积神经网络，使用传统RGB相机的目标跟踪近年来取得了显著进展。然而，由于传统传感器的帧率和动态范围限制，当前基于帧的跟踪器在某些降级场景中常常不堪重负，例如快速运动和高动态范围。相比之下，事件基相机是生物启发视觉传感器，其工作原理与常规相机有根本的不同。事件相机不是以固定速率捕获帧，而是异步测量亮度变化，并输出代表位置、时间戳和亮度变化符号的事件流。与传统相机相比，事件基相机提供了吸引人的优势：高时间分辨率（微秒级）、高动态范围（140dB vs. 60dB）和低功耗。因此，编码的事件可以为降级条件下的目标跟踪提供丰富的时间线索。然而，事件基相机无法像传统相机那样测量细粒度的纹理信息，这对于区分目标和背景至关重要。因此，两种传感器是互补的，如图1所示。这种独特的互补性促使我们将事件基信息引入现有的基于帧的跟踪器，以利用帧域和事件域的优势，提高在降级条件下的跟踪性能。

为了实现我们的目的，需要解决两个挑战：（i）从事件流中提取空间和时间线索是一个挑战。由于事件的异步格式与传统帧大不相同，最近的工作将事件聚合成帧，然后使用基于CNN的方法来处理它们。然而，这些方法通常忽略了在不同时间发生的事件之间的相关性，这对于时空预测至关重要。（ii）另一个挑战是有效融合事件和传统帧域，无论场景的多样性如何。尽管多模态跟踪器（即RGB-热成像和RGB-深度）显示出有希望的潜力，但事件的独特属性阻止了这些方法的直接应用，无法提供有效的解决方案。

在本文中，我们分别提出了事件特征提取器和多模态整合器来解决上述两个挑战。具体来说，（i）我们采用了一种简单但有效的事件累积方法来离散化异步事件的时间域。每个离散化的时间切片可以累积成一个强度帧。基于这些聚合的事件帧，我们进一步设计了一种新颖的时空特征提取器，称为GM-LSTM，以充分利用事件的运动线索来提取全局时空特征。所提出的GM-LSTM包括一个自注意力方案，用于捕获具有长期空间依赖性的时序特征，以及一个运动感知模块，用于增强不同时刻事件的表示，从而提高跟踪器的置信度。（ii）我们设计了一个跨域调制和选择模块（CDMS），以有效和适应性的方式结合事件域和帧域的优势。通过精心设计的特征增强模块来加强有效性，该模块估计来自一个域的注意力，有助于另一个域的特征表达。适应性是通过特别设计的比例方案来维持的，以平衡两个域的贡献，从而确定哪个线索对目标位置是可靠的。

缺乏训练数据也是使用事件和帧域进行跟踪的主要瓶颈。因此，我们构建了一个大规模的多模态单目标跟踪数据集FE141，包含141个序列，总时长为2.0小时。FE141在帧域和事件域都提供了地面真实注释。注释频率高达240 Hz。为确保多样性，我们从差异显著的真实世界场景中捕获视频，这些场景在对象类别、位置、形状、运动和照明条件方面都有很大的差异。为了证明我们提出的方法的有效性，我们将八种最先进的基于帧的跟踪器扩展为多模态跟踪器。以图2为例，在我们FE141数据集上的实验结果表明，我们提出的模块显著提高了现有基于帧的跟踪器的性能。这项工作的主要贡献有四个方面。

我们引入了一种新颖的基于事件的提取器，用于捕获具有运动线索的时空特征，并设计了一个设计良好的跨域特征整合器，以有效和适应性地融合来自帧域和事件域的视觉线索。
我们提出的方法可以作为插件模块轻松扩展到其他基于帧的跟踪器，显著提升它们的表现。
我们贡献了一个大规模的帧-事件基础数据集，用于单目标跟踪。该数据集在类别、位置、形状和降级条件下提供了广泛的多样性。
在不同数据集上的实验结果证明了我们方法的有效性。

这项工作的初步版本在ICCV 2021上发表，称为FENet。与初步版本相比，我们在这项工作中进行了几项扩展。（i）我们提出了一种名为GM-LSTM的新型基于事件的提取器，可以有效地从事件基数据中提取全局空间和丰富的时序特征及运动线索；（ii）我们进行了广泛的实验，并验证了我们提出的方法可以作为插件模块轻松扩展到其他基于帧的跟踪器，并显著提升它们的表现；（iii）我们收集了33个额外的序列，包含了对事件域特别具有挑战性的场景，如严重的相机运动、频闪光、静态对象等；（iv）我们进行了额外的实验和更多的分析，包括在额外的基准VisEvent上比较最先进的跟踪器、比较不同的融合策略、计算成本、局限性和未来研究方向。

2 相关工作

2.1 单域目标跟踪

2.1.1 基于帧的目标跟踪

大多数当前的跟踪器利用传统的基于帧的传感器，其中基于孪生网络的方法已经获得了显著的流行。作为开创性的工作之一，SiamFC证明了基于孪生全卷积深度网络有能力更有效地使用可用数据进行跟踪任务。最近，为了增强跟踪流程的每个部分，已经进行了几项改进，例如使用更深更宽的主干网络，引入注意力和transformer机制，探索无监督训练，利用模型更新机制，提出在线更新方案等。

2.1.2 基于事件的目标跟踪

与基于帧的目标跟踪方法相比，只有少数尝试使用基于事件的相机进行目标跟踪。基于事件的跟踪通常可以分为基于聚类的和基于学习的跟踪器。Piatkowska等人将基于高斯混合模型的聚类扩展到在高遮挡情况下定位多个人。Camuñas-Mesa等人提出了一种基于传入事件和动态聚类列表之间距离标准的聚类跟踪算法。Barranco等人使用异步事件重新定义了众所周知的均值漂移聚类算法，用于多目标跟踪。然而，这些方法依赖于强假设或假设受限条件。基于深度学习的强大表征能力，Chen等人增强了事件表征方法Time-Surface，并提出了用于基于事件的单目标跟踪的跟踪检测网络。Zhang等人引入了尖峰神经网络来提取异步事件的时序特征，以提高基于事件的跟踪性能。Zhu等人构建了一种端到端的学习基础范式，直接消耗事件云。

2.2 多域目标跟踪

利用多个传感器的优势，在具有挑战性的场景中进行稳健跟踪是一种直观的策略。热图像对照明变化不敏感，因此被引入作为补充域，以改善在雨雾等极端条件下的性能。例如，基于相关性的关注，Zhang等人收集了一个大规模基准，并为可见-热成像无人机跟踪设计了一个分层多模态融合跟踪器。另一系列工作利用深度和传统可见传感器帮助解决目标跟踪中的遮挡问题。深度线索比传统帧提供更好的对象到背景分离，并简化了关于遮挡的推理。例如，Lukezic等人验证了基线RGB跟踪器的性能可以通过直接添加深度信息来提高。事件基相机的异步输出使帧域和事件域的组合与上述多域跟踪器相比成为一个独特的挑战。例如，Yang等人使用卷积神经网络和尖峰神经网络分别提取帧和事件的特征。Huang等人融合了低帧率的传统帧序列及其相应的高频事件，用于跟踪高速移动的对象。由于数据集的限制，这些方法在有限的场景内验证了帧和事件融合的有效性。

2.3 使用LSTM进行时空预测

Sutskever等人首次提出了一个端到端的多层LSTM编码器-解码器框架，用于机器翻译，其输入数据是一维的。之后，Srivastava等人将LSTM引入到视频表示领域。然而，他们的方法只能学习视频序列的时间连贯性。为了同时捕获视频帧的空间和时间特征，Shi等人提出了卷积LSTM（ConvLSTM）网络，用于降水预测。基于这项工作，已经提出了一些变体，在时空预测方面取得了令人印象深刻的结果。例如，Wang等人设计了一个时空LSTM单元，可以在统一的存储单元中对空间和时间表示进行建模，并在层间垂直和状态间水平传递记忆。TrajGRU利用卷积层学习特定应用的降水预测的感知区域偏移。Wu等人专注于模拟运动变化，以统一的方式学习显式瞬时变化并记住运动趋势。然而，由于感知领域有限，这些方法缺乏捕获长期空间依赖性的能力。此外，先前输出状态和当前输入状态之间的简单交互忽略了两个状态之间的关键相关性，这对于时空预测至关重要。在本文中，我们将自注意力机制引入ConvLSTM，以有效提取全局空间特征和时间特征。此外，我们通过利用运动信息加强不同时刻状态之间的交互，并增强相应特征。

3 方法

作为补充模态，基于事件的信息可以有效地提升传统基于帧的跟踪器的输出，并显著提高跟踪性能。然而，将事件的好处纳入现有的基于帧的跟踪器需要解决两个挑战：（i）基于事件的相机报告异步每个像素的亮度变化，同时提取空间和时间信息是具有挑战性的；（ii）简单地组合事件和帧域会忽略其中一个域没有提供有意义信息的情况。在这项工作中，我们提出了事件特征提取器（EFE；第3.2节）和跨域调制和选择模块（CDMS；第3.3节），分别解决上述两个挑战。如图3所示，整体架构有两个分支：参考分支（顶部）和测试分支（底部）。参考和测试分支在孪生样式中共享权重。每个分支有三个组成部分，即：帧特征提取器（FFE）、EFE和CDMS。特别是，FFE以传统帧作为输入来提取纹理特征；EFE从连续传统帧之间捕获的事件中提取空间和时间信息。CDMS负责整合两个域的优势，并建立融合特征（即和）。然后，这些融合的特征被输入到基线跟踪器的分类器和回归器中，以在测试帧上定位目标。为了便于理解，我们接下来通过将基于帧的跟踪器PrDiMP扩展为多模态跟踪器的示例来详细说明我们提出的方法。在PrDiMP中，采用预训练的ResNet18作为FFE。第四和第五块的特征分别用作低级和高级帧特征（即和）。

3.1 事件表示

基于事件的相机异步捕获每个像素的日志强度变化。当发生以下情况时，将触发事件：

其中C表示对比度阈值；p是极性，表示亮度变化的符号，+1和-1分别表示正事件和负事件。Δt是自位置的最后一个事件以来的时间。在给定的时间间隔内，将触发一组事件：

由于异步事件格式与传统基于帧的相机捕获的帧大不相同，通常将事件集转换为类似网格的表示，以便使用事件与卷积神经网络一起使用。在本文中，我们采用了一种简单但有效的事件集和基于网格的张量之间的映射。具体来说，受到Zhu等人的启发，我们首先将两个相邻帧之间捕获的事件聚合到一个n-bin体素网格中，以离散化时间维度。然后，每个3D离散化切片累积成一个2D帧，其中帧中的像素记录当前切片内像素位置内最新时间戳的事件的极性。最后，将n个生成的帧缩放255以进行进一步处理。给定一组事件，，时间戳在第i个bin的时间范围内，位于第i个聚合帧上的(x, y)处的像素可以定义如下：

对于所有，其中是帧域中第j帧的时间戳；δ是狄拉克δ函数；B是时间域中的bin大小，定义为：

所提出的方法利用最新时间戳捕获每个时间切片内最新的运动线索。我们的实验结果表明，我们使用的事件处理方法优于其他常用方法（见表5）。

3.2 事件特征提取器（EFE）

EFE模块的目的是提取事件数据的全局空间和时间特征及运动线索。如图3所示，EFE的关键组成部分是GM-LSTM，这是ConvLSTM的一个变体。给定一组事件，我们首先根据方程3将它们分成多个bin。GM-LSTM然后处理每个bin，同时保持空间维度一致。在推理过程中，每个隐藏状态和细胞状态都以序列方式传播到下一个GM-LSTM。通过融合细胞状态张量并使用另外两个卷积层，我们提取不同级别的事件特征El和Eh，包括空间和时间信息。

ConvLSTM通过用卷积层替换线性操作来同时捕获传统帧的时间和空间依赖性，从而取得了令人印象深刻的结果。然而，对于累积的事件帧，由于稀疏性和缺乏纹理信息，提取局部特征很困难。因此，建立全局关系对于使用事件信息至关重要。由于卷积层的感受野有限，ConvLSTM往往难以捕获长期空间依赖性。此外，在ConvLSTM中，当前输入状态和先前的隐藏输出状态通过连接操作进行交互。这种简单的交互忽略了两个状态之间的区别，每个状态都包含不同时刻的关键目标运动、外观、场景和关联线索，这对于时空预测至关重要。为了解决上述限制，我们用所提出的全局空间依赖性提取器（GSDE）和运动感知模块（MAM）替换了ConvLSTM中的连接操作和卷积层，以捕获用于跟踪的时空信息和运动线索。

我们的GM-LSTM可以表述如下，

其中GSDE和MAM分别表示GSDE和MAM模块；和分别表示细胞激活状态、隐藏输出状态和输入事件状态；D是降低计算量的下采样操作；FGM是当前输入状态和先前隐藏输出状态的聚合特征；S表示将FGM分割成通道维度上等大小的块（即和）；和分别是时间t的输入门、遗忘门和输出门；σ是Sigmoid函数；表示逐元素乘法。

我们接下来描述所提出的GM-LSTM的两个关键组成部分（即GSDE和MAM）的架构细节。

3.2.1 全局空间依赖性提取器（GSDE）

鉴于自注意力机制在建模全局依赖性方面 ,

其中是一个重塑函数，目标形状为；

, ；表示一个softmax函数。类似地，对于有：

其中 , ；我们认为当前时间步的预测可以从过去相关特征中受益，因此我们设置。通过这样做，可以在堆叠的LSTM单元层的传播过程中捕获全局空间依赖性。

3.2.2 运动感知模块（MAM）

视觉跟踪依赖于运动和时间上下文，这激发了我们利用先前输出状态和当前输入状态之间的区分信息来提高我们跟踪器的置信度。如图4b所示，我们首先对和执行减法操作，以获取不同状态之间的最具有区分性的线索，包括目标运动、外观、场景。然后，我们利用区分信息进行空间注意力方案，引导和关注信息丰富的部分，并预测更具区分性的状态和。最后，我们连接和，并利用卷积层生成聚合特征 FGM。首先减法然后连接的操作确保了在关注区分性线索的同时保留先前和当前状态信息。正式地，MAM模块定义为：

其中表示卷积层；和分别代表批量归一化（BN）和ReLU激活函数；是Sigmoid函数；是区分的注意力图；是通道均值操作。

3.3 跨域调制和选择（CDMS）

我们提出的CDMS旨在融合来自帧和事件域的有价值特征，无论场景的多样性如何，如图5所示。简单地融合帧和事件域并不一定能带来期望的性能提升。在典型情况下，由帧提供的纹理信息和由事件提供的边缘信息都为目标跟踪提供了有意义的线索。然而，在高动态范围（HDR）场景中，例如，帧域线索可能很弱或不存在，没有提供有价值的线索，而事件域线索仍然稳健。类似地，在缺乏运动的情况下，基于事件的相机无法成功记录与对象相关的信息，而传统帧仍然可以提供丰富的纹理特征。因此，有效且动态地融合多域信息对于稳健的目标跟踪至关重要。

如图5所示，我们首先设计了一个跨域注意力块（CAB）以用另一个域的信息补充一个域。具体来说，给定提取的帧特征和事件特征，我们定义了以下跨域注意力方案来为生成一个增强的特征：

其中表示基于的自注意力；是基于的跨域注意力方案，以引导的特征；表示增强的事件特征。类似地，我们可以生成由事件域指导的增强帧特征。基于和，我们进一步提出了一个自适应加权平衡方案（AW）来平衡帧和事件域的贡献：

其中是自适应平均池化。

3.4 分类器和边界框（BBox）回归器

为了增强通用性，我们没有修改现有基于帧的跟踪器的分类器、BBox回归器和损失函数。以PrDiMP为例，BBox回归器包含IoU调制和IoU预测器。IoU调制首先将和映射到不同级别的调制向量和。数学上，映射如下实现：

其中是全连接层；表示PrPool；是参考帧中的目标边界框。接下来，IoU预测器基于以下等式预测IoU：

分类器预测目标置信度分数。它首先将和映射到初始滤波器，然后由优化器进行优化。优化器使用最陡下降方法获得最终滤波器。最终滤波器用作卷积层的滤波器权重，并应用于，以鲁棒地区分目标对象和背景干扰。网络通过最小化预测和标签分布之间的Kullback-Leibler散度进行训练。

4 FE141 数据集

4.1 数据集收集与注释

我们的 FE141 数据集是通过 DAVIS346 相机和 Vicon 运动捕捉系统同时记录的。DAVIS346 相机配备了一个 346×260 像素的动态视觉传感器（DVS）和一个基于帧的有源像素传感器（APS），能够同时捕获事件和灰度帧。由于事件基相机仅在处理变化像素时消耗电力，其功耗显著低于传统相机（即 ≤ 100 mW 对比于 ≥ 3W）。Vicon 系统通过 12 个 Vero 运动捕捉红外相机提供高采样率和亚毫米级精度的 3D 位置和目标轨迹。由于 Vicon 系统采用主动传感来追踪对象，系统发射的红外光在事件领域成为噪声。为解决此问题，我们在 DAVIS346 前置了一个红外滤光片，以滤除波长超过 700 纳米的光线。我们将 DAVIS346 相机的 APS 采样率设置为 10/15/20/40 Hz，并将 Vicon 设置为 240 Hz。数据注释通过从 Vicon 到 DAVIS346 事件相机的 3D 投影完成，更多细节请参考 Mitrokhin 等人（2019）。

4.2 数据集统计

与基于 RGB 的跟踪基准相比，事件基跟踪数据集的尝试较少。Hu 等人通过使用神经形态视觉传感器记录监视器，将现有的 RGB 基准数据集转换为基于 DVS 的数据集。然而，这种设置忽略了事件基相机的高时间分辨率和高动态范围的优势，阻碍了记录连续帧之间的运动信息以及 HDR 场景中的有用线索。Mitrokhin 等人在真实场景中展示了两个事件基跟踪数据集：EED 和 EV-IMO。如表 1 所示，EED 仅有 234 帧（10.2 秒）包含两种类型的对象。EV-IMO 提供了更好的包裹，包括运动掩模和高达 200Hz 的高频事件注释。但是，与 EED 类似，有限的对象类型限制了它的实际应用。最近，Wang 等人提出了一个 RGB-Event 跟踪数据集，称为 VisEvent，但该数据集的事件注释频率仅为 25Hz。此外，VisEvent 中的部分数据存在时间戳不匹配或缺少原始事件，导致只有不完整的数据可用。为解决多模态学习事件的高注释率训练数据的缺乏，我们收集了一个名为 FE141 的大规模数据集，包含 141 个序列，总时长为 2.0 小时。我们还提供了与现有的基于强度图像的目标跟踪数据集的分布差异比较，包括 OTB-2013、OTB-2015、TC-128、VOT-2014、VOT-2017、NUS-PRO、UAV123、UAV20L、GOT-10k 和 LaSOT。我们从多个角度进一步介绍了 FE141 的统计数据，以突出其多样性。

4.2.1 对象和场景类别

我们旨在构建一个具有高度多样性的数据集，涵盖丰富的对象和场景类别。如图 6a 所示，我们的 FE141 数据集包括 21 个不同的对象类别，涵盖了大多数实际应用类别。这些对象可分为三类：动物、车辆和日常用品（例如瓶子、盒子）。鉴于事件基相机对运动的敏感性，我们在具有不同运动的场景下构建了数据集。具体来说，根据摄像机的运动和对象数量，如图 6b 所示，FE141 有四种类型的场景：静态镜头下的单一对象或多个对象（CS/SO 和 CS/MO）；动态镜头下的单一对象或多个对象（CM/SO 和 CM/MO）。

顶刊 IJCV | 一种通用的基于事件的插件模块，用于降级条件下的视觉目标跟踪

正文

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ”

重磅干货，第一时间送达
A Universal Event-Based Plug-In Module for Visual Object Tracking in Degraded Conditions

一种通用的基于事件的插件模块，用于降级条件下的视觉目标跟踪

摘要

关键词

1 引言