专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
普象工业设计小站  ·  超硬核!机械表高精度建模,全网最直观,最详尽 ... ·  5 小时前  
湖南日报  ·  查分!通道来了! ·  18 小时前  
湖南日报  ·  不要买!不要吃! ·  3 天前  
51好读  ›  专栏  ›  3DCV

NeurlPS'24 | 北大开源StreamFlow:光流估计新SOTA!速度提高64%!

3DCV  · 公众号  ·  · 2024-11-27 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video Sequences

作者:Shangkun Sun, Jiaming Liu, Thomas H. Li, Huaxia Li, Guoqing Liu, Wei Gao

机构:Peking University、Peng Cheng Laboratory、Xiaohongshu Inc、Minieye Inc

原文链接:https://arxiv.org/abs/2311.17099

代码链接:https://github.com/littlespray/StreamFlow

1. 导读

连续帧之间的遮挡长期以来对光流估计提出了重大挑战。由遮挡引入的固有模糊性直接违反了亮度恒常性约束,并且极大地阻碍了像素到像素的匹配。为了解决这个问题,多帧光流方法利用相邻帧来减轻局部模糊。然而,现有的多帧方法主要采用递归流量估计,导致相当大的计算重叠。相比之下,我们提出了一个精简的批内框架,该框架消除了对大量冗余递归计算的需要,同时在批内估计约束下开发了有效的时空建模方法。具体来说,我们提出了一种针对视频输入定制的精简批内多帧(SIM)流水线,实现了与双帧网络相似的时间效率水平。此外,我们介绍了一种有效的综合时空相干(ISC)建模方法,用于在编码阶段进行有效的时空建模,该方法不引入额外的参数开销。此外,我们设计了一个全局时间回归器(GTR ),有效地探索解码过程中的时间关系。得益于高效的SIM管道和有效的模块,StreamFlow不仅在具有挑战性的KITTI和Sintel数据集上表现出色,尤其是在遮挡区域有所改善,而且还实现了显著的63.82%与以前的多帧方法相比,速度有所提高。

2. 引言

光流估计旨在对连续两帧之间的每个像素进行对应建模,是计算机视觉中的一项基础任务。它有着多种下游应用,如视频压缩、目标跟踪和自动驾驶。尽管近年来光流估计取得了显著进展,但遮挡问题仍尚未完全解决。特别是,我们将遮挡视为当前帧中的像素在下一帧中消失的现象,这违反了亮度一致性约束,导致局部模糊性显著增加,严重干扰了逐像素匹配。

为缓解此问题,先前的研究基于两帧设置提出了各种方法。最近,越来越多的研究开始探索跨多帧的时间线索。多帧光流方法利用前后帧的信息来更好地描述像素运动的时间连续性,从而实现对遮挡运动的更精确估计。然而,在处理视频输入时,先前的多帧流框架存在大量冗余计算重叠,导致效率不佳。例如,TransFlow设计了一种基于跨帧注意力的纯Transformer架构,并利用自监督预训练来更好地优化时空模块。但是,跨帧注意力的计算仍然存在成对重叠的问题,且纯Transformer方案在实时应用中并不占优势。另一方面,VideoFlow还预测了双向流,并获得了显著的性能提升。它成功避免了双向流的冗余成对计算,但在预测多个单向流时仍然需要递归估计。

这引发了一个核心问题: 是否有可能设计一个多帧管道,既能减少视频序列中的计算重叠,又能有效利用时间线索,同时在训练和推理中保持高效率?

在本研究中,我们提出了StreamFlow,这是一种针对视频输入而设计的高效多帧光流估计方法。StreamFlow通过精简的批内多帧(SIM)管道实现了高效性,该管道在预测视频序列的单向流时避免了重复和重叠的计算。此外,StreamFlow还探索了在批内非重叠估计的约束下有效建模时空线索的挑战。在编码过程中,StreamFlow提出了一个参数高效的集成时空一致性(ISC)建模模块,以及一个全局时间回归器(GTR)来解码所有流。值得注意的是,这些模块非常轻量,且StreamFlow在保持显著准确性的同时,与两帧方法相比具有相当的效率,在没有自监督预训练和双向流目标的情况下,StreamFlow在Sintel和KITTI数据集上实现了优越的性能,尤其是在遮挡区域。

3. 效果展示

性能、运行时间和参数之间的比较。更大的气泡代表更多的参数。模型通过(C+)T计划进行训练,并在Sintel最终通过时进行验证。

不同管道之间的比较。递归方法利用多帧来估计两帧流,这需要大量冗余,而StreamFlow批量估计多帧流,并消除重叠计算。

4. 主要贡献

我们的贡献如下:

• 我们提出了用于光流估计的精简批内多帧(SIM)管道,该管道在计算视频输入的单向流时消除了重复重叠的计算。 推荐课程: 相机模型与标定系统教程(单目+双目+鱼眼+深度相机)

• 在非重叠管道的约束下,我们专门设计了集成时空一致性(ISC)模块,该模块不引入额外参数,并能有效利用时空线索。

• 对于SIM管道,我们在解码过程中设计了全局时间回归器(GTR),以进一步利用时间线索,同时仅增加适度的计算成本。

• 提出的StreamFlow在多个基准测试中实现了优越的性能,特别是在遮挡区域,与两帧方法相比具有相当的效率,从而在光流估计方面取得了显著改进。

5. 方法

StreamFlow的总体框架如图3所示。对于基本编码器和解码器,与VideoFlow类似,StreamFlow采用Twins transformer作为编码器,并在解码过程中使用SKFlow中的运动编码器和更新器。采用迭代解码器的整体迭代细化设计是RAFT中提出的范式,并被许多后续工作所遵循。输入帧首先被传递到两个具有相同结构的特征编码器中,以分别提取相关特征和上下文特征。然后,基于相关特征计算多尺度全对相关性向量。

6. 实验结果

从表1中我们可以了解到,StreamFlow在Sintel和KITTI数据集上取得了卓越的性能。在FlyingThings数据集上进行预训练后,StreamFlow展现出了跨数据集的强大泛化能力。鉴于先前方法的领先性能,StreamFlow在极具挑战性的Sintel clean和final pass数据集上,分别将终点误差(End-Point Error, EPE)进一步降低了0.16和0.08。在KITTI数据集上,StreamFlow以比先前最先进方法低0.11的EPE和17.65%的Fl-all指标,展现出了更优的性能。值得注意的是,在没有自监督预训练或双向光流的情况下,StreamFlow在采用(C)+T和+S+K+H训练方案后,在极具挑战性的Sintel和KITTI基准测试中仍达到了显著的准确性和效率。

我们测试了原始递归管线和我们的SIM管线的效率。递归方法利用多帧来预测当前两帧的光流,带来了大量的冗余计算,而SIM管线则能够同时估计多个光流,并最大限度地减少重叠计算。如表2所示,SIM管线在效率方面带来了巨大提升。

在本节中,我们展示了在合成场景和真实世界场景中的可视化结果。我们在极具挑战性的Sintel和KITTI数据集上测试了模型,如图5所示。在附录中,我们还展示了在真实世界数据集DAVIS上的定性性能。我们的模型采用了T+H+S+K训练方案进行预训练。我们可以发现,当StreamFlow推广到真实世界场景时,仍能获得显著的定性结果。

7. 总结

在本研究中,我们提出了StreamFlow,这是一种多帧光流估计方法,擅长利用高效的时空关系挖掘技术来识别多个视频帧之间的光流。StreamFlow通过一种批内方法(SIM管线)来估计多帧光流,并探索了在这种约束下设计时间建模模块的方法。具体而言,StreamFlow引入了一个参数高效的集成时空一致性(ISC)模块,该模块与编码器无缝集成,并在解码器中设计了一个高效且有效的全局时间回归器(GTR)模块。大量实验证明了StreamFlow的效率和有效性。通过提出的SIM管线、ISC和GTR模块,StreamFlow在保持与两帧方法相当效率的同时,实现了显著的准确性,尤其是在遮挡区域。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、视频\图像生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文