专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

AAAI'25开源 | 首次实现毫米级精度！华科新作FlowMamba：点云场景流估计新框架！

计算机视觉工坊 · 公众号 · · 2025-01-06 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：FlowMamba: Learning Point Cloud Scene Flow with Global Motion Propagation

作者：Min Lin, Gangwei Xu, Yun Wang, Xianqi Wang, Xin Yang

机构：Huazhong University of Science & Technology

原文链接：https://arxiv.org/abs/2412.17366

1. 导读

基于深度学习的场景流方法已经取得了令人印象深刻的性能。然而，由于局部证据不足，当前性能最好的方法仍然难以处理不适定的区域，例如广泛的平坦区域或遮挡。在本文中，我们提出了一种新的具有全局运动传播的全局感知场景流估计网络，命名为FlowMamba。FlowMamba的核心思想是一种基于状态空间模型(ISU)的新型迭代单元，它首先传播全局运动模式，然后自适应地将全局运动信息与先前隐藏的状态相结合。由于点云的不规则性限制了ISU在全局运动传播中的性能，我们提出了一种特征诱导排序策略(FIO)。FIO利用语义相关和运动相关的特征将点排序到以空间连续性为特征的序列中。大量实验证明了FlowMamba的有效性，在FlyingThings3D和KITTI数据集上的最佳公开结果中，EPE3D减少了21.9%和20.5%。具体来说，我们的FlowMamba是FlyingThings3D和KITTI中第一个达到毫米级预测精度的方法。此外，所提出的ISU可以作为即插即用模块无缝嵌入到现有的迭代网络中，从而显著提高其估计精度。

2. 引言

场景流估计的任务是从连续帧中计算三维运动场，具有多种下游应用，如自动驾驶、机器人操作、增强现实等。目前，场景流估计仍面临诸多挑战，如在平坦区域、细长结构或遮挡区域中。这些区域可以广义地定义为不适定区域：即几何特征不足甚至缺失的区域。这些区域对场景流的预测构成了明显挑战，因为它们引入了显著的局部歧义以及帧间点对应的不可靠性。

早期方法通过利用邻近点来恢复运动来解决这些挑战区域的问题。这可以通过使用卷积神经网络（CNN）学习邻近点之间的关系或通过将场景流约束在局部区域内呈现刚体运动来实现。然而，这两种方法都受到小操作窗口内可用局部信息的限制，主要关注局部证据。当局部证据不足以恢复隐藏运动时，会严重降低当前最先进方法的性能。近期的研究，如Lu等人的工作，已经探索了使用非局部方法来建模局部描述符之间的长距离依赖关系，旨在解决局部证据不足的问题。虽然这些方法在一定程度上有所帮助，但它们仍然容易失败，因为几何结构的严重缺失显著降低了局部描述符的表示能力。

解决局部歧义的一种潜在方案是利用全局解释，如通过Transformer学习全局关系。然而，注意力机制的二次复杂度带来了巨大的计算需求，并阻碍了推理速度。受近期研究启发，这些研究将结构化状态空间模型（SSM）和Mamba应用于点云处理，以线性复杂度提供了有效的全局感受野，我们提出了一种新的场景流估计方法，名为FlowMamba。FlowMamba得益于一种新型基于SSM的迭代更新模块（ISU）和特征诱导排序（FIO）策略，能够高效地捕获长距离运动和建模复杂模式，有效解决了局部歧义区域的问题。

具体而言，我们认为ISU模块在传播全局信息方面发挥着关键作用，这推动了两个关键设计。首先，我们提倡双向序列建模，以确保从所有其他点全面聚合信息。其次，ISU在迭代更新过程中整合全局隐藏信息，增强了模型捕获复杂运动模式的能力。然而，点云固有的不规则性可能会在没有排序的情况下直接应用ISU模块时限制全局运动的传播，因为这种不规则性可能会在序列建模过程中引入错误的空间关系。为了克服这一限制，我们提出了特征诱导排序（FIO）策略。其核心思想是让网络能够在更高层次上构建点之间的因果依赖关系，从而隐式地保持空间一致性。具体而言，我们利用语义相关和运动相关的特征——上下文特征、运动信息和更新的隐藏信息——作为关键线索，为每个点生成一个分数并确定序列顺序。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。

我们证明，FlowMamba中ISU促进的长距离连接显著增强了场景流估计，尤其是在处理局部信息不足的不适定区域的运动时。在FlyingThings3D数据集上，我们的FlowMamba在非遮挡和遮挡场景下分别达到了最先进的EPE3D，误差降低了21.9%和20.9%。在真实世界的KITTI数据集上，FlowMamba通过分别在非遮挡和遮挡场景下将误差降低20.5%和9.6%，提高了泛化能力。

3. 效果展示

左图:与最先进的场景流方法在FlyingThings3D和KITTI上的比较。值得注意的是，我们在两个数据集上都首次达到了毫米级的精度。右图:与FlyingThings3D上每个层输出的准确度比较。我们的FlowMamba能够从最粗的级别开始实现越的结果。在实际应用中，调整层数和迭代次数可以在效率和准确性之间进行权衡。

KITTI测试集上的定性结果。它表明，提供全局运动传播可以提高具有模糊几何特征的区域的性能，如路堤、路边草地和一些细长结构(路缘或轨道)。蓝、绿、红点分别表示第一帧Pt，精确估计用Pt，不精确估计用Pt(用Acc3DS测)。

4. 主要贡献

本文的贡献如下：

我们提出了一种新的场景流估计架构，名为FlowMamba，该架构通过融入全局运动传播来显著增强运动估计的鲁棒性。

我们引入了一种新的基于SSM的迭代更新模块（ISU），能够在点云中有效地整合全局运动信息。

我们提出了一种特征诱导排序策略（FIO），以减轻点云不规则性对全局运动传播的影响。

我们的方法在FlyingThings3D和KITTI数据集上优于现有的已发表方法。特别是，我们的FlowMamba首次在这两个数据集上都达到了毫米级精度。我们还验证了我们的ISU在多种场景流方法上的通用性。

5. 方法

我们提出的FlowMamba的概述。特征编码器对点云进行抽象，以获得多尺度点特征和上下文特征。通过使用从特征金字塔中检索到的局部代价体积，可以获得相关特征。迭代SSM更新模块（ISU）旨在通过全局运动传播捕获长距离依赖关系和综合运动模式，从而更新隐藏信息和场景流。特征诱导排序（FIO）策略旨在点云中构建合理的因果依赖关系

6. 实验结果

7. 总结 & 未来工作

我们提出了一种新的场景流估计方法，称为FlowMamba。其核心组件ISU模块旨在高效地全局传播匹配信息并建模长距离运动依赖。为了减轻点云不规则性的影响并增强ISU的全局传播能力，我们引入了F0策略，将点序列排序为具有高水平空间连续性的序列。广泛的实验证明了我们的FlowMamba的优越性及其在FlyingThings3D和KITTI上的泛化能力它显示了全球信息传播对点云运动估计的至关重要性。所提出的方法还展示了强大的大学作为各种方法的插拔模块。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。