专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
艾邦高分子  ·  【邀请函】2025年第五届先进尼龙材料产业论 ... ·  9 小时前  
艾邦高分子  ·  【邀请函】2025可持续环保材料论坛(5月2 ... ·  昨天  
艾邦高分子  ·  DOMO化学中国工厂取得GRS证书,可持续发 ... ·  2 天前  
高分子科学前沿  ·  突发!北京知名高校发生高坠事故!当场死亡! ·  2 天前  
高分子科学前沿  ·  上海交大窦红静团队/长征医院曲乐丰、职康康团 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

普林斯顿邓嘉团队开源!SEA-RAFT:简单、高效、准确的光流RAFT

计算机视觉工坊  · 公众号  ·  · 2024-05-27 07:50

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

作者:Yihan Wang | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


1. 这篇文章干了啥?

光流是低层视觉中的一个基本任务,旨在估计视频帧之间的每像素2D运动。它对于各种下游任务都很有用,包括动作识别,视频修补,帧插值,3D重建和合成。虽然传统上被公式化为一个优化问题,但几乎所有最近的方法都基于深度学习。特别是,许多最先进的方法采用了基于RAFT的架构,该架构使用循环网络来迭代地改进光流场。

在本文中,我们介绍了SEA-RAFT,这是RAFT的一个新变体,更高效和准确。与所有现有方法相比,SEA-RAFT具有最佳的准确度 - 效率:

这些改进在光流的RAFT风格方法的背景下是新颖的。此外,它们与现有RAFT风格方法中提出的改进是正交的,后者着重于用新设计替换某些块,例如用transformer替换卷积块。

除了上述主要改进外,SEA-RAFT还融入了架构上的变化,大大简化了原始RAFT。特别是,我们发现原始RAFT的某些自定义设计是不必要的,可以用标准的现成模块替换。例如,原始特征编码器和上下文编码器是定制设计的,并且必须使用不同的归一化层进行稳定训练;我们用标准的ResNet分别替换了它们。此外,我们将原始卷积GRU替换为由ConvNext块完全组成的简单RNN。这些简化使得SEARAFT能够轻松地引入新的神经构建模块,并扩展到更大的数据集。

我们进行了广泛的实验,评估了SEA-RAFT在标准基准测试中的性能,包括Spring、Sintel和KITTI。我们还通过消融研究验证了我们改进的有效性。

2. 摘要

我们介绍了SEA-RAFT,一种更简单、高效和准确的光流RAFT。与RAFT相比,SEA-RAFT使用了新的损失函数(拉普拉斯混合)。它直接回归出一个初始光流,以加快迭代细化的收敛速度,并引入了刚性运动预训练以改善泛化能力。SEA-RAFT在Spring基准测试上实现了最先进的准确性,端点误差(EPE)为3.69,1像素异常值率(1px)为0.36,分别比最佳发布结果降低了22.9%和17.8%。此外,SEA-RAFT在KITTI和Spring上获得了最佳的跨数据集泛化能力。由于其高效性,SEA-RAFT的运行速度至少比现有方法快2.3倍,同时保持竞争性能。代码在https://github.com/princeton-vl/SEA-RAFT公开。

3. 效果展示

- 准确性:在Spring数据集上,SEA-RAFT实现了一个新的最优性能,明显优于次优性能:1像素异常点错误率减少18%(3.686 vs. 4.482),端点误差减少24%(0.363 vs. 0.471)。在Sintel和KITTI上,它优于所有其他具有类似计算成本的方法。

- 效率:在每个基准测试中,SEA-RAFT至少比具有相似准确度的现有方法快2.3倍。我们的最小模型在Spring数据集上仍然优于所有其他方法,当在RTX3090上处理1080p图像时,可以以21fps运行,比原始RAFT快3倍。我们通过引入一系列对原始RAFT的改进来实现这一点:

- 拉普拉斯损失的混合:我们训练网络来预测拉普拉斯分布的参数,以最大化地面实况光流的对数似然。正如我们将要展示的,这种新的损失减少了对模棱两可情况的过度拟合,并提高了泛化能力。

- 直接回归初始光流:我们直接预测初始光流,而不是在迭代细化之前将光流场初始化为零,我们重用现有的上下文编码器并将其馈送到堆叠的输入帧中。这种简单的改变引入了最小的开销,但在减少迭代次数和提高效率方面效果显著。

- 刚性光流预训练:我们发现在TartanAir上进行预训练可以显著改善泛化能力,尽管流的多样性受到在静态场景中纯粹由摄像机运动引起的限制。

4. 基本原理是啥?

大多数先前的研究都是使用在所有像素上的端点误差损失进行监督。然而,光流训练数据通常包含模糊不定、不可预测的样本,这在经验上可能会主导这种损失。光流的模糊情况光流的模糊情况可能会在严重遮挡的情况下出现。虽然在许多情况下,被遮挡像素的运动可以被预测,但有时模糊性可能过大,无法预测出单一结果。我们检查了FlyingChairs训练集和验证集中端点误差最高的10个样本,并发现模糊情况主导了误差。

5. 实验结果

Spring数据集的结果 。如表1所示,SEA-RAFT在不使用额外数据的情况下取得了最佳结果,这证明了我们混合损失和架构设计的优越性。当允许使用额外数据时,SEA-RAFT略逊于MS-RAFT+,但速度快24倍,尺寸小11倍,如图1所示。

Sintel和KITTI数据集上的结果

零样本评估 :遵循之前的工作,我们在Sintel(训练)和KITTI(训练)上评估了SEA-RAFT在训练方案"C+T"下的零样本性能。结果见表2。在KITTI(训练)上,SEA-RAFT的表现远远优于以往所有工作,将Fl-epe从4.09提高到3.62,将Fl-all从13.7提高到12.9。在Sintel(训练)上,SEA-RAFT在干净的通道上取得了竞争性的结果,但由于我们不清楚的原因,在最终通道上表现不佳。请注意,尽管这种"C+T"零样本设置是标准的,但它与实际应用的相关性有限,实际应用不需要将训练数据限制在C+T之内。事实上,我们表明通过添加少量高质量的真实世界数据(KITTI + HD1K,约1.2k图像对,而FlyingThings3D中有80k图像对),可以显着减少Sintel(训练)最终通道上的性能差距。微调测试结果见表3。与RAFT相比,SEA-RAFT在Sintel干净通道上提高了19.9%,在Sintel最终通道上提高了4.2%,在KITTI Fl-all分数上提高了15.7%。在性能和速度的权衡方面,SEA-RAFT也是所有现有方法中具有竞争力的:它是唯一一种可以在延迟约为70ms时实现比RAFT [50]更好结果的方法。在Sintel(测试)上,性能相似的方法至少比我们慢1.8倍。在KITTI(测试)上,性能相似的方法至少比我们慢4.6倍。

消融和分析

基于SEA-RAFT(S)的Spring数据集进行消融实验 。我们从原始训练集中分离出一个子验证集(序列0045和0047),在剩余的训练数据上训练我们的模型,并在子验证集上评估性能。模型使用批量大小为32、输入分辨率为540×960进行训练。我们将消融研究的细节描述如下,并在表4中展示结果:

预训练 :我们测试了TartanAir刚性流预训练在不同数据集上的性能(有关详细信息,请参见表1、2和4)。即使没有TartanAir,SEARAFT已经提供了强大的性能,而刚性流预训练使其性能更好。我们还表明ImageNet预训练权重是有效的。

推理时间分解:在图7中,我们展示了当我们添加更多细化时计算成本如何增加。对于SEA-RAFT来说,成本瓶颈不再是迭代细化(表5),这使我们可以在与RAFT相同的计算成本约束下使用更大的骨干网络。

6. 总结

我们介绍了SEA-RAFT,这是RAFT的一个更简单、更高效和更准确的变体。它在各种数据集上都能取得高精度,在跨数据集泛化和准确性-速度权衡方面都处于领先地位,使其在实际高分辨率光流应用中非常有用。

7. 参考

[1]SEA-RAFT: Simple, Efficient, Accurate RAFT for Optical Flow

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业







请到「今天看啥」查看全文