专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
摸摸艺术书  ·  书评 / 监狱里的摄影课程 ·  2 天前  
旅拍誌  ·  胶片里青春影像的杀伤力 ·  5 天前  
51好读  ›  专栏  ›  3DCV

IJCV 2024 | Splatting+Optical Flow=SOTA!国防科大最新提出多帧光流框架SplatFlow

3DCV  · 公众号  ·  · 2024-05-13 11:05

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

1. 导读

多帧设定有望潜在地缓解光流估计(OEF)中挑战性的遮挡问题。遗憾的是,多帧OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow,其引入了可导Splatting变换对前一帧的运动特征进行对齐,并设计了一种 Final-to-All 的嵌入方法,将对齐后的运动特征输入到当前帧的估计中,从而对现有的两帧骨干网络进行重构。大量的实验表明,SplatFlow在KITTI2015和Sintel基准测试中均实现SOTA,大大优于所有已发布的方法。本工作现已发表在计算机视觉顶级期刊《International Journal of Computer Vision》上。

2. 论文信息

标题:SplatFlow: Learning Multi-frame Optical Flow via Splatting
作者:Bo Wang,Yifan Zhang,Jian Li,Yang Yu,Zhenping Sun,Li Liu,Dewen Hu
机构:国防科技大学
原文链接: https://arxiv.org/pdf/2306.08887
代码链接: https://github.com/wwsource/SplatFlow

3. 方法

我们方法是为例如RAFT和GMA等单分辨率迭代骨干网络设计的多帧方法。我们以RAFT为例介绍我们的方法,如图1所示。

图1

图1中加粗的橙色和紫色横向大箭头分别代表了原始RAFT的光流估计 过程(从 帧到 帧)和 过程(从t帧到t+1帧)。我们的多帧方法从 过程聚合运动估计到 过程中。方法首先在 过程的每一次迭代后提取运动特征 。然后使用一个基于Splatting的对齐方法来获得与t帧坐标系对齐的运动特征 。接着方法使用一个“Final-to-All”的嵌入方法来将对齐的运动特征输入到 过程中。

如图1中运动特征编码器网络所示,我们从两帧方法RAFT中引入运动特征。具体的,网络对 过程第n次迭代的相关特征和第 次迭代的粗分辨率光流进行联合编码,从而得到 帧第 次迭代的运动特征

如图1中基于Splatting的聚合器网络所示,我们使用其实现所提的基于Splatting的运动特征对齐方法。在提取了每次迭代的 后,我们使用第 次迭代的粗分辨率光流将其单向映射到 帧坐标系下,得到对齐的运动特征 。这样就可以实现运动特征可导且亚像素级别的填充。

如图1中“Final-to-All”嵌入器网络所示,最后一次迭代产生的对齐的运动特征 会被输入到 过程,用于为每次更新t帧光流提供一个有效的运动先验。

实验结果

关于遮挡问题的定量实验

我们首先探讨了多帧设定对遮挡的影响。表1显示了“SplatFlow-RAFT”和“SplatFlow-GMA”基线与其两帧骨干RAFT和GMA在经过C+T训练过程后的Things val和Sintel train Clean数据集以及经过S-finetune训练过程后的Sintel train和Sintel test数据集上三种类型的区域(未遮挡、遮挡和全部)上的评估结果和相对性能增量。从结果来看,经过所有训练过程后,我们的方法在所有数据集的所有三个区域都取得了显著的提高。而遮挡区域的改进最为明显,这表明网络可以让每个区域都从多帧设定中受益,特别是在遮挡区域。

表1

关于遮挡问题的定性实验

图2显示了我们的方法和GMA在经过S-finetune的Sintel Clean数据集和经过K-finetune训练过程的KITTI test数据集上的定性结果。实线框标记区域在t+1帧中被明显遮挡,虚线框标记区域未被遮挡,但难以估计。框中内容表明我们的方法可以获得在非遮挡区域更精细的,在遮挡区域更令人满意且避免大面积估计失败的结果。同时,图2 (a)-(c)中在Sintel基准报告的验证数值展示了我们的方法在三个区域都超过了GMA,这与表1的结论一致。

图2

与SOTA方法对比

我们在公开的Sintel和KITTI基准上评估了我们的方法,并将结果与之前的工作进行了比较,如表2所示。经过S-finetune训练过程(表2第二部分),我们的方法在Sintel test Clean和Sintel test Final数据集上均排名第一,EPE分别为1.12和2.07。与之前的最佳方法GMA相比,误差分别降低了19.4%和16.2%。经过K-finetune训练过程(表2第三部分),在KITTI test数据集上,我们的方法在所有基于光流的方法中排名第一。从这些结果可以看出,我们的方法在两个公开基准上达到了新的最先进的性能,从而证明了它的有效性和先进性。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉:







请到「今天看啥」查看全文