专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
新疆949交通广播  ·  新疆首批!这三地率先入选→ ·  20 小时前  
新疆949交通广播  ·  最新!这些名称不再使用→ ·  2 天前  
新疆949交通广播  ·  《哪吒2》,破130亿! ·  2 天前  
新疆949交通广播  ·  乌鲁木齐:今年计划新增高中学位2000个! ·  3 天前  
51好读  ›  专栏  ›  3DCV

边缘设备20FPS!精度SOTA!NeuFlow v2:又快又准的光流估计!已开源!

3DCV  · 公众号  ·  · 2024-08-23 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

编辑:3DCV

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

近年来,高精度光流估计算法的发展取得了显著进展。从FlowNet开始,基于学习的光流方法已转向特征学习以进行匹配,逐渐摒弃了Lucas-Kanade或SIFT等传统手工设计的特征。尽管取得了这些进展,但早期的光流方法仍面临大位移和泛化到现实世界数据等重大挑战。最近的深度学习方法虽然缓解了这些问题,但计算成本也随之增加。

由于在实际世界中收集真实的光流数据存在困难,因此主要通过模拟来生成足够的训练数据。然而,使用模拟数据进行训练可能会因不现实的照明、反射和单调场景而导致过拟合。早期依赖卷积神经网络(CNN)的光流方法在处理大位移时存在困难,且其一次性架构无法很好地泛化到现实世界数据。

从RAFT开始,迭代细化部分缓解了泛化问题,同时也捕捉到了更大的运动。最近的研究通过引入最新的模块(如Transformer、部分核卷积、超级核等)进一步提高了准确性和泛化能力。然而,由于迭代细化过程,这些方法通常计算量更大。一些模型需要超过30次迭代才能生成稳定的光流,而其他模型虽然减少了迭代次数,但增加了每次迭代的计算负载。

分析NeuFlow-v1时,我们注意到在现实世界数据上存在类似的泛化问题。但使用之前方法中的细化模块会导致计算时间大幅增加,这是不希望的。为了缓解这一问题同时保持实时推理速度,我们向架构中引入了两个新组件。首先,我们详细分析了主干网络并移除了冗余组件,使其更加轻量级和高效。在主干网络之前,我们采用了交叉注意力和全局匹配模块来处理大位移问题,以估计不受感受野限制的初始光流。其次,我们提出了一个高效的迭代细化模块。这两个模块在保持计算成本较低的同时,大大提高了在现实世界数据上的性能。最终,我们的方法实现了实时性能,在Jetson Orin Nano上以512x384分辨率的图像运行,速度超过20 FPS。

下面一起来阅读一下这项工作~

1. 论文信息

标题:NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices

作者:Zhiyong Zhang, Aniket Gupta, Huaizu Jiang, Hanumant Singh

原文链接:https://arxiv.org/abs/2408.10161

代码链接:https://github.com/neufieldrobotics/NeuFlow_v2

2. 摘要

实时高精度光流估计对于各种现实应用至关重要。尽管最近基于学习的光流方法已达到了高精度,但它们往往伴随着巨大的计算成本。在本文中,我们提出了一种高效的光流方法,该方法在保持高精度的同时降低了计算需求。在NeuFlow v1的基础上,我们引入了新的组件,包括更轻量级的骨干网络和快速细化模块。这两个模块在保持计算需求较低的同时,提供了接近最先进技术的准确性。与其他最先进的方法相比,我们的模型在合成数据和现实数据上均保持了可比的性能,同时实现了10倍至70倍的加速。它能够在Jetson Orin Nano上以超过20 FPS的速度处理512x384分辨率的图像。完整的训练和评估代码可在https://github.com/neufieldrobotics/NeuFlow v2上获得。

3. 效果展示

图2展示了NeuFlow-v2在未见过的现实世界数据上的泛化示例。

4. 主要贡献

本文的主要贡献如下:

简单的主干网络:一个基于简单CNN的主干网络,用于从多尺度图像中提取低级特征。与常用的ResNet或特征金字塔网络等架构不同,这种轻量级主干网络被发现足以获得准确的光流。 推荐学习: 线结构光(单目&双目)三维重建系统教程

轻量级且高效的迭代细化模块:一个能够输出隐藏状态和解码细化光流的简单循环网络模块。与使用耗时的LSTM或GRU模块不同,我们提出了一个更简单的RNN模块,它更轻量级且在局部细化方面实现了更高的准确性。

5. 基本原理是啥?

在NeuFlow v1中,我们提出了一个类似的浅层主干网络,用于从多尺度图像中提取低级特征。在NeuFlow v2中,我们消除了冗余部分,仅保留了有效组件。这一设计的直觉是,在光流任务中,充足的低级特征比高级特征更为重要。图4详细说明了新的简单主干网络。我们使用由卷积层、归一化层和ReLU层组成的CNN块从1/2、1/4和1/8尺度的图像中提取特征。这个相同的CNN块用于将这些特征连接并调整为所需的输出尺度,特别是1/16尺度的特征和上下文,以及1/8尺度的特征和上下文。特征用于相关性计算,而上下文用于流细化。

请注意,1/1尺度的图像仅用于凸上采样,并不参与估计1/8分辨率的光流。第4节中的消融实验表明,从完整的1/1尺度图像中提取的特征会导致训练集(FlyingThings)上的过拟合,并且不会提高未见数据(Sintel, KITTI)的准确性。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了一种高效的光流方法,其精度接近最先进水平,同时速度提高了10倍,能够在边缘计算设备上实现实时推理。我们已经发布了NeuFlow v2的代码和模型权重(https://github.com/neufieldrobotics/NeuFlow_v2)。然而,我们也认识到,由于相关性计算,该方法存在内存消耗大的问题。已有多种模块解决了这一问题,这些模块可以在我们的架构中使用。

我们的方法还包含过多的参数(900万),这主要是由于简单的骨干网络和简单的RNN细化模块,它们高度依赖于卷积神经网络(CNN)。这可能会导致训练数据过拟合。许多高效的模块可以被替换以减少参数数量。例如,MobileNets使用深度可分离卷积,而ShuffleNet则利用逐点组卷积。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、







请到「今天看啥」查看全文


推荐文章
新疆949交通广播  ·  新疆首批!这三地率先入选→
20 小时前
新疆949交通广播  ·  最新!这些名称不再使用→
2 天前
新疆949交通广播  ·  《哪吒2》,破130亿!
2 天前
新疆949交通广播  ·  乌鲁木齐:今年计划新增高中学位2000个!
3 天前
彬彬有理  ·  这样的女生,男生不心动都难
8 年前
知音  ·  女人越贵越好看
7 年前