专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
玉林晚报  ·  男子点烟花被炸身亡,殡仪馆:已收到遗体 ·  8 小时前  
玉林晚报  ·  男子点烟花被炸身亡,殡仪馆:已收到遗体 ·  8 小时前  
大皖新闻  ·  元宵节!安徽一市公共自行车停运 ·  2 天前  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  2 天前  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

精度99.1%!RGBD-Glue:使用视觉信息增强点云配准!

计算机视觉工坊  · 公众号  ·  · 2024-05-31 10:10

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

作者:Congjia Chen | 转自:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

点云配准是许多任务中的关键组件,例如SLAM和机器人应用,它对齐了场景的部分视图。研究人员通常使用依赖于匹配关系提取和几何拟合的方法来估计两个点云之间的几何变换。在这里,匹配关系提取至关重要,因为高质量的匹配关系可以有效地减少计算量并提高几何拟合的准确性。匹配关系提取可以分为两个组件:特征提取和匹配关系估计。

对于特征提取,代表性的手工特征描述符是FPFH,最近的基于学习的特征描述符通过学习更具有区分性的特征得到了显著改进。然而,即使使用基于学习的特征描述符,低内点比率仍然是任何基于对应关系的几何拟合方法的难题。为此,使用对应关系估计方法来找到更多的内点。最近的研究使用CNN、PointNet或注意力模块来提高内点比率,并取得了显著的性能。虽然这些方法有效,但它们增加了额外的训练成本,并且它们的泛化性能并不总是令人满意。

前述方法仅基于几何信息。由于廉价RGB-D相机的快速普及,RGB-D数据的获取变得更加容易,从而促进了视觉信息的使用。在最近的研究中,视觉信息已被用于点云配准,表现出最先进的性能。然而,UR&R仅使用点云进行定位,没有充分利用几何信息。与此同时,BYOC使用视觉对应作为标签来启动特征学习,但并没有充分利用视觉和几何特征之间的相关性。LLT和PointMBF提取融合的视觉-几何特征以深度结合两种模态,但这种紧密策略会使一个特征的弱点影响另一个特征,并且不能充分利用视觉和几何特征的有效信息。此外,它们都专注于使用两种模态训练特征提取模型,这限制了它们的泛化性和灵活性。

在本文中,我们旨在提出一种能够以更有效和灵活的方式组合两种模态的方法,并构建一个通用框架,在需要时可以免学习。视觉特征描述符可以生成比几何特征描述符更具有区分性的关键点和特征,并且可以在特征匹配中达到更高的准确度。因此,视觉对应可以轻松实现粗略准确的变换估计。然而,稀疏匹配限制了它们的性能和鲁棒性,并使得难以实现精细配准。相比之下,几何特征描述符更稳定地生成稠密和正确的对应关系,但是大量的异常值对几何拟合构成了相当大的挑战。

受此启发,我们提出了一个通用的特征组合框架RGBD-Glue,我们的关键见解是利用视觉和几何特征的互补属性,结合两种特征的优势来克服各自的弱点。如前所述,通过视觉对应更容易估计粗略准确的几何变换,这可以作为一种有用的先验信息。利用变换,我们估计假定内点的误差分布并设计自适应阈值进行分布测试。然后,提出了一个显式过滤器,用于提取具有高变换一致性的几何对应关系并获得可信的对应关系集。最后,可以通过该集实现准确的配准。与先前的RGBD融合研究相比,我们提出的方法可以有效地结合视觉和几何特征的优势,并在两种特征中的一种弱时避免性能下降。此外,我们的方法注重灵活性,并以一种更松散但更有效的方式进行特征融合,这为我们的方法带来了独特的优势和出色的性能。如图1所示,正确的匹配关系被获得,实现了准确的配准。

由于特征组合的设计,我们提出的框架与任何视觉和几何特征描述符兼容,并且可以有效地结合视觉和几何特征以实现与单个特征使用相比更好的性能。由此受益,我们提出的框架是通用的,可以为各种任务使用不同的特征描述符,而不是依赖于特定的网络。通过使用手工特征描述符,我们的方法不需要学习,但与基于学习的方法相当。此外,通过使用基于学习的特征描述符,我们的方法优于其他基于学习的方法。为了评估,我们在一个大型RGB-D室内数据集ScanNet上进行实验,并将我们的方法与最近的点云配准方法进行性能比较。此外,我们进行了全面的消融研究,以展示我们方法中每个组件的影响。

下面一起来阅读一下这项工作~

1. 论文信息

标题:RGBD-Glue: General Feature Combination for Robust RGB-D Point Cloud Registration

作者:Congjia Chen, Xiaoyu Jia, Yanhong Zheng, Yufu Qu

机构:北京航空航天大学、北京航天器系统工程研究所

原文链接:https://arxiv.org/abs/2405.07594

2. 摘要

点云配准是估计点云之间刚性变换的基本任务。先前的研究使用几何信息进行特征提取、匹配和估算变换。最近,由于RGB-D传感器的进步,研究人员尝试利用视觉信息来提高配准性能。然而,这些研究侧重于通过深度特征融合提取独特特征,不能有效解决每个特征的弱点,并且不能充分利用有效信息。在本文中,我们提出了一个新的特征组合框架,采用了更松散但更有效的融合,可以实现更好的性能。我们设计了一个基于变换一致性的显式过滤器,用于组合框架,可以克服每个特征的弱点。并且提出了一种由误差分布确定的自适应阈值,用于从两种类型的特征中提取更多有效信息。由于独特的设计,我们提出的框架可以估计更准确的对应关系,并且适用于手工设计和基于学习的特征描述符。在ScanNet上的实验证明,我们的方法实现了最先进的性能,旋转精度达到了99.1%。

3. 效果展示

RGBD-Glue将视觉和几何特征结合起来,用于估计几何拟合的可信匹配关系,从而在配准中实现低旋转误差(REs)和平移误差(TEs)。

4. 主要贡献

我们提出了一个灵活的框架,以简单而新颖的方式结合视觉和几何特征,实现更好的点云配准。实验表明,我们的方法达到了最先进的性能。我们提出了一种松散的特征组合策略,并设计了一种基于变换一致性的显式滤波器,用于可靠的匹配估计。

5. 基本原理是啥?

提出的RGBD-Glue框架的架构。首先,我们从RGB-D数据中提取视觉和几何特征。其次,我们将它们进行匹配以获得对应关系。第三,我们利用高质量的视觉匹配关系,通过基于自适应阈值的转换一致性测试来找到可信的几何匹配关系。最后,我们通过这些匹配关系来估计变换。

6. 实验结果

如表1所示,我们提出的方法在所有指标上均取得了最先进的性能。在没有学习的情况下,我们方法的性能与基于学习的方法相当。通过使用基于学习的特征描述符,我们方法实现了显著的性能提升。与对应估计方法相比,我们方法胜过了最近的基于学习的方法,如PointDSC和GeoTransformer。通过有效地利用视觉特征和几何特征的优势,我们的方法在特征融合方法中取得了最佳性能。特别是,我们的方法在严格阈值下实现了高精度,在宽松阈值下实现了约100%的精度,这表明其鲁棒性。此外,通过将我们的方法与之前的最先进方法PointMBF进行比较,我们的融合策略是有效的,并且可以比PointMBF的多尺度双向融合更好。此外,我们的方法是一个通用框架,兼容任何特征描述符,并且可以无需学习。因此,我们的方法更灵活,可以处理各种RGB-D点云配准任务。

视觉特征与几何特征 。我们观察到视觉特征可以轻松实现高内点比。通过执行比率测试或使用基于学习的匹配器,视觉特征对应可以在宽松和严格阈值下实现高精度。这可能是因为视觉特征具有丰富的纹理信息,使它们比几何特征更加独特。然而,这并不意味着在所有情况下视觉特征都更好。由于视点不同、光照不同和纹理较弱,不是每个像素都能提取出有效的局部特征进行匹配,仅使用视觉特征生成足够的内点是不可靠的。相比之下,几何特征面临不同的挑战,如模糊和重复的结构,低内点比通常是一个更严重的问题。如表2和表3所示,尽管大多数几何对应是离群值,但仍然有相当数量的内点可以经过滤波后实现准确配准。因此,我们使用更松的融合来有效地利用每个特征的优势。

特征组合的性能。如表2所示,我们的方法与使用单独的几何特征相比显示了显著的改进。我们观察到使用视觉特征特别是LightGlue可以实现高配准精度。然而,当将视觉特征与FPFH结合使用时,后者在对应估计中表现出很低的准确度,可以实现更好的性能。同时,当将视觉特征与优秀的描述符FCGF结合使用时,与仅使用视觉或几何特征相比,可以实现更好的性能。更详细地说,如表3所示,我们的方法可以允许经过滤波的几何对应实现高内点比,并在2.5厘米阈值下保持大部分内点。通过高质量的视觉对应,我们的方法可以充分提取几何对应中的有效信息。相反,当视觉对应较弱时,我们的方法可以避免错误的过滤并保留几何对应中的大部分有效信息,从而避免更糟糕的性能。结果表明,与其他融合策略相比,我们提出的策略可以充分利用有效信息,并避免由两种模态的不同限制引起的不利影响。此外,有时将跳过滤波器。因此,我们另外计算了已由滤波器处理的数据的百分比作为滤波器召回率。结果表明,我们提出的滤波器已有效地去除了大部分数据中的离群值。

K的影响。我们使用一个倍增器K来放大阈值。这是因为视觉对应可能导致不准确的变换估计,当它们较弱时。因此,我们设置K来降低对视觉特征的约束,以获得更好的鲁棒性。结果如表4所示,表明增加K会导致更好的性能。更详细地说,增加K可以提高滤波器在面对低质量视觉对应时的性能。通过增加K,可以获得更好的鲁棒性和更高的滤波器召回率。然而,增加K也会降低内点比例,并在视觉对应较强时导致轻微的性能下降。因此,设置一个平衡鲁棒性和准确性的合适的K是很重要的。我们注意到,当K超过特定值时,我们的方法对K的变化不敏感。因此,我们相信对于手工设计和基于学习的视觉特征,可以分别设置固定值来处理一般情况,当视觉对应相当弱时,需要更高的值。在我们的实验中,对于基于学习的视觉特征(例如LightGlue),我们设置K = 3,对于手工设计的视觉特征(例如SIFT),我们设置K = 5。

后细化效果 。我们通过估计的变换获得对应关系中的假设内点,并使用最小二乘法获得更好的结果。后细化性能主要取决于前面几何拟合的准确性。使用我们提出的方法,我们提取高质量的对应关系。因此,后细化之前估计的变换相对准确,假设内点很可能是真实的内点。这表明可以获得更好的配准结果。如表2所示,后细化改善了我们方法在所有指标上的性能。

在较大的帧间距下进行注册。我们注意到相隔20帧较不具挑战性,因此我们的方法的改进不够明显。因此,我们评估了在更大的帧间距下的注册性能,以进一步证明我们方法的有效性。较大的帧间距会导致重叠度降低,这对视觉和几何特征匹配都带来了巨大挑战。我们将我们的方法与LightGlue,GeoTransformer和PointMBF进行了比较。结果如表5所示,表明我们的方法性能显著更好。此外,通过有效地结合视觉和几何信息,我们的方法与仅使用LightGlue相比可以实现显著的改进。此外,在较大的帧间距下,后期精化仍具有良好的性能,这表明我们方法提取的对应关系质量很高。

7. 总结 & 未来工作

本文提出了一种RGB-D点云注册的通用框架RGBD-Glue。与其他融合方法不同,我们使用基于变换一致性的显式滤波器实现了更松散的融合,并设计了自适应阈值来提取更多有效信息,这使得我们的方法具有更好的性能和鲁棒性。此外,不同描述符的适用性使得我们提出的方法对各种注册任务都具有灵活性。实验证明,与使用单个特征相比,我们的方法实现了更好的性能,并表现出最先进的性能。此外,我们的方法可以扩展到其他基于RGB-D的任务,并且利用RGB图像中的更多信息来改进对应关系估计仍然是一个值得探索的任务。我们将在未来的工作中进行进一步研究。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。







请到「今天看啥」查看全文