0. 论文信息
标题:BlinkTrack: Feature Tracking over 100 FPS via Events and Images
作者:Yichen Shen, Yijin Li, Shuo Chen, Guanglin Li, Zhaoyang Huang, Hujun Bao, Zhaopeng Cui, Guofeng Zhang
机构:浙江大学、Avolution AI
原文链接:https://arxiv.org/abs/2409.17981
1. 引言
特征追踪旨在从参考时间戳开始,估计查询点在后续时间段内的轨迹。它是许多计算机视觉任务的基础,包括从运动中恢复结构、同时定位与地图构建(SLAM)以及目标追踪。
近年来,事件相机的成功引起了研究界的广泛关注。事件相机是一种创新的传感器,能够在极高的时间分辨率下异步检测场景中的变化,即捕捉事件的发生,而不是在固定间隔记录帧。这一独特特性使事件相机能够在高频率下进行特征追踪,即使在具有挑战性的光照条件下或面对快速移动的对象时也是如此。
然而,事件相机无法像传统相机那样捕获详细的细粒度纹理信息,这可能导致误差累积并抑制追踪性能。因此,在本文中,我们利用事件相机与标准相机的宝贵信息进行融合,以实现高效且强大的特征追踪。
为实现我们的目标,我们必须解决两个主要挑战:(i)事件相机和标准相机不同步工作,标准相机以固定帧率(例如,30fps)捕获图像,而事件相机则异步检测变化。这种不匹配在融合这两种信号时可能导致追踪位置的模糊性。(ii)另一个重大挑战是如何无缝地整合两种模态的互补数据,同时最小化噪声干扰。
之前基于学习的特征追踪方法,如Deep-EV-Tracker,通过用另一种模态的结果初始化追踪位置来简单地组合事件数据和RGB图像,这仅带来了有限的改进。在其他领域,已经探索了基于注意力的模块用于对齐和融合。虽然这些方法可能有效,但它们无法满足高频特征追踪的效率要求。另一方面,传统技术如卡尔曼滤波器为异步数据的融合提供了有效工具。然而,它们通常需要仔细的手工参数调整,并且仍未达到最近基于学习的方法的性能水平。
基于这些观察,我们提出了一种新颖的框架,该框架通过利用事件数据和RGB图像实现了高频特征追踪(超过100 FPS),我们称之为BlinkTrack。我们的方法受到传统技术(即卡尔曼滤波器)的启发,但将其扩展到了基于学习的框架中。具体而言,我们的框架包括一个事件分支和一个图像分支。两个分支都采用了可微卡尔曼滤波器。它们学习从新的测量中预测不确定性,并通过端到端训练将这些测量值融入特征追踪中。从可微卡尔曼滤波器继承的特性带来了几个优势。首先,通过学习最优状态,它改进了单模态追踪器。其次,它有助于解决遮挡造成的模糊和不正确的测量值。第三,它自然支持来自不同模态的异步测量的融合。除了卡尔曼滤波器外,我们的事件分支和RGB分支也设计精良,实现了高精度和高效率的平衡。
然而,在训练和评估过程中,我们发现当前的数据集过于简单,无法充分发挥我们模型的潜力,也无法提供全面的评估。为此,我们首先生成了一个更复杂的合成数据集来训练我们的模型。然后,我们增加了两个现有评估数据集的遮挡情况。实验表明,所提出的追踪器显著优于现有的基于事件的方法,并且对遮挡更加鲁棒。此外,它可以在超过100 FPS的速度下运行。
2. 摘要
特征跟踪对于运动结构(SFM)、同步定位和地图创建(SLAM)、目标跟踪和各种计算机视觉任务至关重要。事件摄像机以其高时间分辨率和捕捉异步变化的能力而闻名,由于其在特征跟踪方面的潜力,尤其是在具有挑战性的条件下,已经获得了极大的关注。然而,事件摄像机缺乏传统摄像机提供的细粒度纹理信息,导致跟踪中的误差累积。为了解决这个问题,我们提出了一个新的框架,BlinkTrack,它将事件数据与RGB图像相结合,用于高频特征跟踪。我们的方法将传统的卡尔曼滤波器扩展到基于学习的框架中,在事件和图像分支中利用可微分卡尔曼滤波器。这种方法改进了单模态跟踪,解决了模糊性,并支持异步数据融合。我们还引入了新的合成和增强数据集,以更好地评估我们的模型。实验结果表明,BlinkTrack明显优于现有的基于事件的方法,预处理事件数据超过100 FPS,多模态数据超过80 FPS。
3. 效果展示
定性比较我们在图3中可视化了我们的方法以及其他方法估计的轨迹。如图所示,所有方法在遮挡后都出现了明显的误差,但我们的方法导致的丢失轨迹更少。颜色重定位模块的有效性是显而易见的,因为它促进了遮挡后的重定位,而其他方法则难以应对,并经常在遮挡后失败。总之,我们的方法提供了最长且最稳定的估计轨迹,证明了其在遮挡情况下的鲁棒性。
4. 主要贡献
我们的贡献可以概括如下。首先,我们提出了一种高效的基于卡尔曼滤波器的框架,该框架能够在超过100 FPS的速度下实现最先进的性能。其次,我们为基于事件的特征追踪生成了新的训练和评估数据集。最后,专项实验表明,所提出的方法在性能上大大优于现有方法,并且在处理遮挡时更加鲁棒。
5. 方法
特征跟踪通常以参考帧和查询点作为输入,并旨在在随后的T个时间戳中跟踪该点,以获得估计值。图1展示了我们的方法BlinkTrack的概述。它由事件模块和图像模块组成。两个模块都使用可微卡尔曼滤波器进行训练。我们介绍了如何设计事件模块以及如何将其与可微卡尔曼滤波器集成。然后讨论了颜色模块的设计。最后,我们介绍了如何监督训练过程。
6. 实验结果
如表2所示,我们的方法仅使用事件模块在EC和EDS上取得了最佳性能。在加入卡尔曼滤波器和颜色模块后,我们获得了更大的优势,但我们必须强调,原始的EC和EDS都是几乎没有遮挡轨迹的静态场景,这并没有完全展现出我们方法的优越性。此外,有无卡尔曼滤波器的对比实验揭示了卡尔曼滤波器的有效性。为了更好地展示卡尔曼滤波器的优越性,我们在具有遮挡的数据集EC-occ和EDS-occ上进行了实验,如表3所示。带有卡尔曼滤波器的模块表现更好,证明了其在稳定跟踪方面的能力,特别是在遮挡情况下,因为遮挡点的增量最大。当点被遮挡时,不确定性会增加,而卡尔曼滤波器会信任其明确的运动状态,而不是不可靠的网络输出。
推荐课程:
彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
。
两个实验都支持了应将多模态数据谨慎结合的观点。仅仅通过替换初始点来简单结合两个模块并不能产生理想的结果,甚至可能比使用单个模块更差。然而,在卡尔曼滤波器的辅助下,我们观察到了显著的改进,这表明卡尔曼滤波器是结合多模态模块的有效方法。
为了更深入地解释,在事件相机或传统相机面临挑战的场景中,如传统相机的极端光照或运动,或事件相机的低潜在特征,不确定性会增加。在这些情况下,当通过卡尔曼滤波器传递时,有偏的预测对最终预测的影响较小。这个过程自然地利用了事件相机和彩色相机的优势,平衡了两个不同来源的预测。
7. 总结 & 未来工作
在本文中,我们提出了BlinkTrack,一个利用事件数据和RGB图像优势的新型高帧率特征跟踪框架。通过在基于学习的架构中集成可微卡尔曼滤波器,BlinkTrack有效地解决了异步数据融合的挑战,并在遮挡情况下提高了跟踪性能。我们进行了广泛的实验,得到了新生成和增强的数据集的支持,结果表明BlinkTrack在鲁棒性和速度方面显著优于现有方法,实现了最先进的性能,同时运行速度超过100 FPS。这些结果强调了我们方法在高级特征跟踪应用中的潜力,并为该领域未来的研究树立了新的基准。
局限性。由于事件模块和彩色图像模块是分开训练的,它们的融合性能可能会受到影响。在未来的工作中,我们将探索使用更多资源来联合训练这两个模块。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球