点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
1. 导读
多帧设定有望潜在地缓解光流估计(OEF)中挑战性的遮挡问题。遗憾的是,多帧OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow,其引入了可导Splatting变换对前一帧的运动特征进行对齐,并设计了一种
Final-to-All
的嵌入方法,将对齐后的运动特征输入到当前帧的估计中,从而对现有的两帧骨干网络进行重构。大量的实验表明,SplatFlow在KITTI2015和Sintel基准测试中均实现SOTA,大大优于所有已发布的方法。本工作现已发表在计算机视觉顶级期刊《International Journal of Computer Vision》上。
2. 论文信息
标题:SplatFlow: Learning Multi-frame Optical Flow via Splatting
作者:Bo Wang,Yifan Zhang,Jian Li,Yang Yu,Zhenping Sun,Li Liu,Dewen Hu
机构:国防科技大学
原文链接:
https://arxiv.org/pdf/2306.08887
代码链接:
https://github.com/wwsource/SplatFlow
3. 方法
我们方法是为例如RAFT和GMA等单分辨率迭代骨干网络设计的多帧方法。我们以RAFT为例介绍我们的方法,如图1所示。
图1
图1中加粗的橙色和紫色横向大箭头分别代表了原始RAFT的光流估计
过程(从
帧到
帧)和
过程(从t帧到t+1帧)。我们的多帧方法从
过程聚合运动估计到
过程中。方法首先在
过程的每一次迭代后提取运动特征
。然后使用一个基于Splatting的对齐方法来获得与t帧坐标系对齐的运动特征
。接着方法使用一个“Final-to-All”的嵌入方法来将对齐的运动特征输入到
过程中。
如图1中运动特征编码器网络所示,我们从两帧方法RAFT中引入运动特征。具体的,网络对
过程第n次迭代的相关特征和第
次迭代的粗分辨率光流进行联合编码,从而得到
帧第
次迭代的运动特征
。
如图1中基于Splatting的聚合器网络所示,我们使用其实现所提的基于Splatting的运动特征对齐方法。在提取了每次迭代的
后,我们使用第
次迭代的粗分辨率光流将其单向映射到
帧坐标系下,得到对齐的运动特征
。这样就可以实现运动特征可导且亚像素级别的填充。
如图1中“Final-to-All”嵌入器网络所示,最后一次迭代产生的对齐的运动特征
会被输入到
过程,用于为每次更新t帧光流提供一个有效的运动先验。
实验结果
关于遮挡问题的定量实验
我们首先探讨了多帧设定对遮挡的影响。表1显示了“SplatFlow-RAFT”和“SplatFlow-GMA”基线与其两帧骨干RAFT和GMA在经过C+T训练过程后的Things val和Sintel train Clean数据集以及经过S-finetune训练过程后的Sintel train和Sintel test数据集上三种类型的区域(未遮挡、遮挡和全部)上的评估结果和相对性能增量。从结果来看,经过所有训练过程后,我们的方法在所有数据集的所有三个区域都取得了显著的提高。而遮挡区域的改进最为明显,这表明网络可以让每个区域都从多帧设定中受益,特别是在遮挡区域。
表1
关于遮挡问题的定性实验
图2显示了我们的方法和GMA在经过S-finetune的Sintel Clean数据集和经过K-finetune训练过程的KITTI test数据集上的定性结果。实线框标记区域在t+1帧中被明显遮挡,虚线框标记区域未被遮挡,但难以估计。框中内容表明我们的方法可以获得在非遮挡区域更精细的,在遮挡区域更令人满意且避免大面积估计失败的结果。同时,图2 (a)-(c)中在Sintel基准报告的验证数值展示了我们的方法在三个区域都超过了GMA,这与表1的结论一致。
图2
与SOTA方法对比
我们在公开的Sintel和KITTI基准上评估了我们的方法,并将结果与之前的工作进行了比较,如表2所示。经过S-finetune训练过程(表2第二部分),我们的方法在Sintel test Clean和Sintel test Final数据集上均排名第一,EPE分别为1.12和2.07。与之前的最佳方法GMA相比,误差分别降低了19.4%和16.2%。经过K-finetune训练过程(表2第三部分),在KITTI test数据集上,我们的方法在所有基于光流的方法中排名第一。从这些结果可以看出,我们的方法在两个公开基准上达到了新的最先进的性能,从而证明了它的有效性和先进性。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉: