专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ICRA'25开源 | 完虐LightGlue！MIT新作MambaGlue：快速、强大的局部特征匹配

3D视觉工坊 · 公众号 · · 2025-02-05 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MambaGlue: Fast and Robust Local Feature Matching With Mamba

作者：Kihwan Ryoo, Hyungtae Lim, Hyun Myung

机构：KAIST、Massachusetts Institute of Technology

原文链接：https://arxiv.org/abs/2502.00462

代码链接：https://github.com/url-kaist/MambaGlue

1. 导读

近年来，在计算机视觉任务中，使用基于深度学习的方法的鲁棒匹配方法已经得到了积极的研究和改进。然而，对于鲁棒和快速的匹配技术仍然存在持续的需求。为了解决这个问题，我们提出了一种新的基于Mamba的局部特征匹配方法，称为MambaGlue，其中Mamba是一种新兴的最先进的架构，由于其在训练和推理方面的卓越速度以及与Transformer架构相比的良好性能而迅速获得认可。特别地，我们提出了两个模块:a) MambaAttention mixer，用于通过基于Mamba的自我注意结构同时并选择性地理解局部和全局上下文，以及b) deep confidence score regressor，这是一个基于多层感知器(MLP)的架构，用于评估一个分数，该分数指示如何有把握地匹配预测对应于基本事实对应。因此，我们的MambaGlue在实际应用中实现了健壮性和效率之间的平衡。通过在各种公共数据集上的验证，我们证明了我们的MambaGlue在保持快速推理速度的同时，比基线方法产生了显著的性能改进。

2. 效果展示

Light-Glue的匹配性能定性比较以及我们提出的名为MambaGlue的室外视觉定位方法，与SuperPoint提供的相同的关键点和初始描述符在相同的阈值参数下。请注意，我们的MambaGlue即使在具有挑战性的条件下，如光照变化，也能展示出更稳健的匹配性能，从而提高最终对应中的内点比例。

3. 主要贡献

为了提高每一层的性能，我们提出了一种名为MambaAttention混合器的创新块，利用Mamba架构，该架构能够利用注意力架构有选择地关注输入标记。

此外，我们提出了一个称为深度置信分数回归器的网络，用于预测置信分数，以指示特征点的可信匹配程度。推荐课程：国内首个面向具身智能方向的理论与实战课程。

因此，我们的方法比最先进的方法具有更优异的性能，且延迟更低。

特别是，值得注意的是，MambaGlue，一个简单的混合方案的Mamba和Transformer，优于全局的最先进的稀疏特征匹配方法。

4. 方法

拟议的特征匹配方法的整体框架如图2所示。我们的MambaGlue主要由具有N个相同层的堆叠层管道组成。系统的输入由来自图像A和B的两组局部特征组成。

5. 实验结果

6. 总结 & 未来工作

在这篇论文中，我们提出了一种快速而稳健的匹配方法，称为MambaGlue，它结合了Mamba和Transformer架构，以实现低延迟的精确局部特征匹配。特别是，我们提出了 MambaAttention 混合块，以增强自我注意能力和深度置信分数回归器，用于预测可靠的特征匹配。我们的结果表明，MambaGlue 在效率和速度之间取得了最佳的平衡。

尽管我们提出的方法在特征匹配方面取得了成功改进，但与 Mamba架构相比，我们的模型对Transformer架构的依赖仍然需要不可忽视的计算资源。在未来的工作中，我们计划制造一个仅限Mamba的型号，以便更轻便和更快的功能匹配。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结