专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
东方网  ·  痛悼!知名演员凌晨去世 ·  2 天前  
新闻夜航  ·  涨了,涨了,暴涨!超388%! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

ECCV'24开源 | 即插即用!涨点神器!让任何特征匹配达到亚像素级精度!

计算机视觉工坊  · 公众号  ·  · 2024-08-21 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

跨图像识别和匹配稀疏的二维特征点,长期以来一直是计算机视觉领域中的一个核心问题。特征检测算法能够从图像集合中生成详细的三维模型,为机器人导航构建地图,识别地点,以及估计精确位置,同时也有助于物体识别。鉴于其重要性,特征检测和描述算法的设计在计算机视觉领域受到了广泛关注。尽管开创性的SIFT算法已成为特征检测流程三十多年来的基准,但近年来,人们的注意力已转向学习方法,SuperPoint在各种应用中脱颖而出,成为新的黄金标准。

先进机器学习工具的引入促使研究人员用神经网络替代传统的基于特征的视觉系统。这些网络通过在不同增强技术的场景下进行明确训练,显示出对特征变化(如视角和光照变化)的更强鲁棒性。然而,独立评估表明,这些学习模型尚未达到其经典前身的关键点定位精度。这一差异很大程度上是由于缺乏确保亚像素精度的机制——这是SIFT算法作为特征检测基准长期地位的一个基本方面。此外,最近的大多数特征检测框架设计的训练协议旨在模拟在视觉任务中应用特征检测器时面临的复杂条件。只有少数几个是专门为了直接优化其旨在解决的特定任务而设计的。

在本文中,我们提出了一种网络,该网络能够对任何学习到的特征集进行增强,以实现关键点检测的亚像素精度。所提出的方法结构旨在向检测到的特征附加一个偏移向量,从而能够在不开发全新特征检测器的情况下实现亚像素精度。该偏移量经过精心学习,可直接最小化测试时评估指标,例如相对姿态误差。我们通过多个数据集上的黄金标准SuperPoint和最近的ALIKED特征,展示了改进后的精度。这些测试包括最近邻特征匹配和先进的LightGlue匹配器。结果表明,我们的方法在各种现实环境(包括室内和室外)中均能持续提高精度指标。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Learning to Make Keypoints Sub-Pixel Accurate

作者:Shinjeong Kim, Marc Pollefeys, Daniel Barath

机构:ETH Zürich、Microsoft Mixed Reality and AI Zurich lab

原文链接:https://arxiv.org/abs/2407.11668

代码链接:https://github.com/KimSinjeong/keypt2subpx

2. 摘要

本工作解决了在检测二维局部特征时面临的亚像素精度挑战,这是计算机视觉领域的一个基础问题。尽管基于神经网络的方法如SuperPoint和ALIKED带来了进步,但由于缺乏亚像素精度,这些现代方法在关键点定位精度上仍落后于经典方法如SIFT。我们提出了一种新颖的网络,该网络通过学习检测特征的偏移向量来增强任何检测器的亚像素精度,从而消除了设计专用亚像素精度检测器的需要。这种优化直接最小化了测试时间的评估指标,如相对姿态误差。通过在不同现实世界数据集上广泛测试最近邻匹配和最新的LightGlue匹配器,我们的方法在精度上始终优于现有方法。此外,它仅将特定检测器的时间增加了约7毫秒。代码可在https://github.com/KimSinjeong/keypt2subpx获取。

3. 效果展示

Keypt2Subpx模块学习任何关键点的多视图一致亚像素调整,给定两幅图像之间的预期关键点对应关系。

4. 基本原理是啥?

我们提供了一种通用的方法来细化任何关键点,以实现亚像素精度。为此,我们提出了一个与检测器无关的关键点细化模块,该模块由局部特征描述符引导,并直接优化双视图几何目标。我们的管道设计不仅将描述符的上下文信息提炼到关键点细化模块中,而且还考虑了几何监督。

5. 实验结果

为了执行相对姿态估计,我们运行了GC-RANSAC来估计基本矩阵。然后,通过基于标准奇异值分解(SVD)的解决方案将这些矩阵分解为相对旋转和平移。MegaDepth数据集源自一个多样化的互联网图像集合,这些图像描绘了全球各地的地标。该数据集利用复杂的从运动恢复结构(SfM)和多视图立体(MVS)技术,为超过1000个不同场景生成了详细的重建和深度图。我们采用了由1500个图像对组成的基准测试集,该测试集的选择遵循LoFTR的方法,作为验证集,而测试集则由联合提供的655K个图像对组成。

表1的前三行报告了使用SuperPoint特征和相互最近邻匹配的结果。所提出的细化方法在所有精度指标上均表现出一致的改进。与原始的SuperPoint相比,平均AUC分数提高了约2个点。同时,内点比例也有所增加,而平均误差和中位数误差均有所降低。此外,我们在所有评估指标上也优于先前的细化方法。

如表3所示的结果与在相对姿态精度实验中观察到的增强效果相呼应。将亚像素细化机制与原始SuperPoint结合后,在所有评估的精度指标上均一致地提高了性能。但值得注意的是,在ScanNet数据集的平均误差指标中出现了例外情况。需要承认的是,尽管平均误差具有参考价值,但由于其易受异常值影响而产生失真,因此与其他指标相比,它通常被视为不那么关键;一个显著的单次误差可能会对平均值产生不成比例的影响。值得注意的是,在这些实验中,加入增强的SuperPoint导致了精度的下降。这一观察结果强调了亚像素细化在增强基于特征的基本矩阵估计中的微妙有效性,凸显了所提方法的广泛适用性和在改进特征检测和匹配过程中的潜力。

6. 总结 & 未来工作

本文介绍了一种新颖的后处理程序,旨在赋予任何学习到的特征检测模型以亚像素精度,从而解决近期检测器的一个关键局限性。通过向检测到的特征附加偏移向量,我们的方法消除了设计专用检测器的需要,同时直接最小化了测试时间评估指标,如相对姿态误差。通过在包含SuperPoint和ALIKED特征以及LightGlue匹配器的大规模现实世界数据集上进行严格测试,我们证明了关键点定位精度的一致性提高。这一提高通过相对姿态和基本矩阵估计得到了验证。尽管性能提升不是特别显著,但在各种实验中均保持一致,凸显了我们方法的可靠性。鉴于我们的方法计算开销极小,仅将处理时间增加了大约7毫秒,因此它提供了一种引人注目的改进,且没有明显缺点。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片 说明 名称






请到「今天看啥」查看全文