IJCV 2024 | Splatting+Optical Flow=SOTA！国防科大最新提出多帧光流框架SplatFlow

3DCV · 公众号 · · 2024-05-13 11:05

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

1. 导读

多帧设定有望潜在地缓解光流估计（OEF）中挑战性的遮挡问题。遗憾的是，多帧OFE(MOFE)尚未得到充分的研究。本工作提出全新的MOFE方法SplatFlow，其引入了可导Splatting变换对前一帧的运动特征进行对齐，并设计了一种 Final-to-All 的嵌入方法，将对齐后的运动特征输入到当前帧的估计中，从而对现有的两帧骨干网络进行重构。大量的实验表明，SplatFlow在KITTI2015和Sintel基准测试中均实现SOTA，大大优于所有已发布的方法。本工作现已发表在计算机视觉顶级期刊《International Journal of Computer Vision》上。

2. 论文信息

标题：SplatFlow: Learning Multi-frame Optical Flow via Splatting
作者：Bo Wang，Yifan Zhang，Jian Li，Yang Yu，Zhenping Sun，Li Liu，Dewen Hu
机构：国防科技大学
原文链接： https://arxiv.org/pdf/2306.08887
代码链接： https://github.com/wwsource/SplatFlow

3. 方法

我们方法是为例如RAFT和GMA等单分辨率迭代骨干网络设计的多帧方法。我们以RAFT为例介绍我们的方法，如图1所示。

图1中加粗的橙色和紫色横向大箭头分别代表了原始RAFT的光流估计过程（从帧到帧）和过程（从t帧到t+1帧）。我们的多帧方法从过程聚合运动估计到过程中。方法首先在过程的每一次迭代后提取运动特征。然后使用一个基于Splatting的对齐方法来获得与t帧坐标系对齐的运动特征。接着方法使用一个“Final-to-All”的嵌入方法来将对齐的运动特征输入到过程中。

如图1中运动特征编码器网络所示，我们从两帧方法RAFT中引入运动特征。具体的，网络对过程第n次迭代的相关特征和第次迭代的粗分辨率光流进行联合编码，从而得到帧第次迭代的运动特征。

如图1中基于Splatting的聚合器网络所示，我们使用其实现所提的基于Splatting的运动特征对齐方法。在提取了每次迭代的后，我们使用第次迭代的粗分辨率光流将其单向映射到帧坐标系下，得到对齐的运动特征。这样就可以实现运动特征可导且亚像素级别的填充。

如图1中“Final-to-All”嵌入器网络所示，最后一次迭代产生的对齐的运动特征会被输入到过程，用于为每次更新t帧光流提供一个有效的运动先验。

实验结果

关于遮挡问题的定量实验

我们首先探讨了多帧设定对遮挡的影响。表1显示了“SplatFlow-RAFT”和“SplatFlow-GMA”基线与其两帧骨干RAFT和GMA在经过C+T训练过程后的Things val和Sintel train Clean数据集以及经过S-finetune训练过程后的Sintel train和Sintel test数据集上三种类型的区域(未遮挡、遮挡和全部)上的评估结果和相对性能增量。从结果来看，经过所有训练过程后，我们的方法在所有数据集的所有三个区域都取得了显著的提高。而遮挡区域的改进最为明显，这表明网络可以让每个区域都从多帧设定中受益，特别是在遮挡区域。

关于遮挡问题的定性实验

图2显示了我们的方法和GMA在经过S-finetune的Sintel Clean数据集和经过K-finetune训练过程的KITTI test数据集上的定性结果。实线框标记区域在t+1帧中被明显遮挡，虚线框标记区域未被遮挡，但难以估计。框中内容表明我们的方法可以获得在非遮挡区域更精细的，在遮挡区域更令人满意且避免大面积估计失败的结果。同时，图2 (a)-(c)中在Sintel基准报告的验证数值展示了我们的方法在三个区域都超过了GMA，这与表1的结论一致。

与SOTA方法对比

我们在公开的Sintel和KITTI基准上评估了我们的方法，并将结果与之前的工作进行了比较，如表2所示。经过S-finetune训练过程(表2第二部分)，我们的方法在Sintel test Clean和Sintel test Final数据集上均排名第一，EPE分别为1.12和2.07。与之前的最佳方法GMA相比，误差分别降低了19.4%和16.2%。经过K-finetune训练过程(表2第三部分)，在KITTI test数据集上，我们的方法在所有基于光流的方法中排名第一。从这些结果可以看出，我们的方法在两个公开基准上达到了新的最先进的性能，从而证明了它的有效性和先进性。

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉：