0. 这篇文章干了啥?
在传统的3D场景扫描与重建中,大规模场景通常被划分为不同的区块,从而生成许多可能位于不同坐标系的独立子场景。因此,这些子场景之间的配准至关重要。目前,点云配准已得到广泛研究并达到了相对成熟的阶段,代表性工作包括ICP、D3Feat、Geotransformer等。主流方法通常涉及从点云中提取特征并定位匹配点,以计算两个输入场景之间的变换关系。
最近,一种新的3D表示方法——神经辐射场(Neural Radiance Fields, NeRF)被引入,并迅速因其强大的视图合成能力而受到关注,已广泛应用于3D场景表示。在基于NeRF进行大规模场景重建时,面临两大主要挑战:1)由于现实场景中存在复杂的遮挡情况,往往需要拍摄大量图像或视频以进行大规模重建,导致数据采集过程耗时较长。2)使用大量图像优化NeRF计算量巨大。因此,一种直接的方法是将大规模场景划分为若干较小场景,分别进行重建,然后利用配准技术将这些小场景组合在一起。
考虑两个重叠的场景,每个场景都有自己的NeRF模型。目前,将两个重建的NeRF场景进行配准的方法大致可以分为两类:1)如NeRFuser中提出的方法,我们可以为每个场景渲染大量图像,然后通过运动恢复结构(SfM)来共同恢复这些图像的姿势。然而,这种方法非常耗时;2)如DReg-NeRF中的方法,我们可以通过从两个场景的NeRF中查询体素网格,将隐式辐射场转换为显式体素,并提取特征以建立它们的匹配关系进行配准。但这种方法面临两个问题:a) 将无界场景的NeRF转换为有界体素很困难;b) 体素网格的分辨率限制使得该方法不适合较大的场景。
最近,提出了高斯溅射(GS),它引入了一种3D高斯分布的显式表示,在确保高质量渲染的同时加快了渲染过程。随后,出现了一个有趣的问题:“
由于GS提供了一种点状表示,我们能否利用点云配准方法进行GS配准?
”
在本文中,我们探索了使用GS进行快速且准确的3D配准,以回答上述问题。以两个场景的GS模型为输入,我们首先从GS中提取它们的点云。因此,一种直接的方法是使用点云配准方法对这些GS点云进行配准。为此,我们设计了一种粗配准方法,该方法遵循标准的点云配准流程,如GeoTransformer,但特别考虑了3D高斯中的额外属性(如不透明度)。
与传统的点云数据采集相比,来自高斯展开(GS)的点云仅捕获粗略的几何结构且通常包含噪声。因此,粗配准无法达到足够精度的精确结果。我们进一步提出了一种新颖的基于粗配准结果的图像引导精细配准流程。我们的主要思想来源于观察到高斯展开不仅包含几何信息,还内在地包含详细的图像信息,这可以支持更精确的对齐。因此,我们首先在粗配准的帮助下定位重叠区域,并在高斯展开的帮助下渲染一些图像。然后,精细配准流程将图像投影到三维体积特征中进行最终匹配和变换估计。最终,我们提出了一种新颖的粗到细的高斯展开配准框架:GaussReg。然而,它仍然缺乏使用高斯展开进行场景级配准的评估基准。为此,我们构建了一个名为ScanNet-GSReg的数据集,该数据集包含来自ScanNet数据集的1379个场景。此外,我们还收集了一个名为GSReg的数据集,包含6个室内和4个室外场景,以评估我们方法的泛化能力。我们在ScanNet-GSReg数据集、DReg-NeRF中使用的Objaverse数据集以及GSReg数据集上进行了广泛的实验,证明了我们方法的有效性。
下面一起来阅读一下这项工作~
1. 论文信息
标题:GaussReg: Fast 3D Registration with Gaussian Splatting
作者:Jiahao Chang, Yinglin Xu, Yihao Li, Yuantao Chen, Xiaoguang Han
机构:https://arxiv.org/abs/2407.05254
原文链接:https://arxiv.org/abs/2407.05254
代码链接:https://jiahao620.github.io/gaussreg
官方主页:https://jiahao620.github.io/gaussreg/
2. 摘要
点云配准是大规模3D场景扫描与重建中的基础问题。在深度学习的帮助下,配准方法已经取得了显著进展,几乎达到了成熟阶段。随着神经辐射场(Neural Radiance Fields,NeRF)的引入,由于其强大的视图合成能力,它已成为最受欢迎的3D场景表示方法。就NeRF表示而言,大规模场景重建也需要进行配准。然而,这一主题的研究极为匮乏。这是由于使用隐式表示来建模两个场景之间的几何关系存在固有的挑战。现有方法通常将隐式表示转换为显式表示以进行进一步配准。最近,引入了高斯展开(Gaussian Splatting,GS),它采用显式的3D高斯表示。该方法在保持高渲染质量的同时,显著提高了渲染速度。鉴于两个具有显式GS表示的场景,本工作探讨了它们之间的3D配准任务。为此,我们提出了GaussReg,这是一种新颖的从粗到细的框架,既快速又准确。粗配准阶段遵循现有的点云配准方法,并估计来自GS的点云的粗略对齐。我们进一步提出了一种新颖的基于图像的精细配准方法,该方法从GS渲染图像,为精确对齐提供更详细的几何信息。为了支持全面的评估,我们精心构建了一个名为ScanNet-GSReg的场景级数据集,其中包含从ScanNet数据集中获得的1379个场景,并收集了一个名为GSReg的野外数据集。实验结果表明,我们的方法在多个数据集上达到了最先进的性能。我们的GaussReg方法比HLoc(使用SuperPoint作为特征提取器,SuperGlue作为匹配器)快44倍,且精度相当。
3. 效果展示
我们的方法的目的是将场景A和B与高斯散斑模型配准,然后将A和B组合在一起,得到融合的高斯散斑模式。
图4的最后两行展示了我们在GSReg数据集上的方法可视化结果。
4. 主要贡献
主要贡献可以总结为:
• 据我们所知,我们是第一个探索考虑高斯展开表示的三维场景配准的研究。
• 我们精心设计了一种新颖的粗到细流程,充分考虑了三维高斯的特点,实现了快速且准确的效果。
• 新提出了一种图像引导的精细配准方法,该方法考虑了高斯展开的渲染图像以实现精细对齐。我们还认为这一策略为与高斯展开相关的研究提供了新的思路。
5. 基本原理是啥?
如图2所示,提出的GaussReg主要包括两个阶段:粗配准和图像引导精细配准。下面我们对整个过程进行简要介绍。假设有两个重叠的场景A和B,每个场景都有自己的高斯展开(GS)模型,且仅保存并可访问所有训练图像的相机姿态。我们将A和B的所有训练图像的相机姿态分别表示为{CA_i = (RA_i, TA_i)}(i=0)^N 和 {CB_j = (RB_j, TB_j)}(j=0)^M。GS模型分别表示为GaussianA和GaussianB,从GS模型导出的点云分别称为PointsA和PointsB。
我们的目标是找到刚性变换{s, R, T},使得场景B与场景A对齐,其中s ∈ R表示尺度因子,R ∈ R(3×3)表示旋转矩阵,T ∈ R3表示平移向量。粗配准阶段直接接受PointsA和PointsB作为输入,并输出一个粗略的变换{sc, Rc, Tc}。由于从GS模型中提取的点云往往包含噪声和畸变,因此粗对齐通常需要更精确。
然后,在图像引导的精细配准阶段,我们首先根据粗对齐结果定位一个高度重叠区域。在该高度重叠区域周围,我们分别从{CA_i}和{CB_j}中选择两个相机子集,并从这些子集中渲染出几幅图像。之后,采用图像引导的三维(I3D)特征提取方法从图像中提取体积特征,这些特征用于后续的局部匹配,最终实现准确的变换输出{sf, Rf, Tf}。
重叠图像选择
如图3所示,这部分的主要目标是分别从集合{CA_i}和{CB_j}中找到两个小的相机子集,这两个子集尽可能共享较大的共同视角区域。在选择之前,我们首先通过均匀采样生成两个子集{Ca_i}和{Cb_j},以降低计算成本。然后,对{Cb_i}应用变换{sc, Rc, Tc}进行粗对齐,得到{ˆCb_i}。在我们的实验中,每个子集包含30张图像。我们的选择过程遵循以下三个步骤:
相机方向匹配
:对于每一对(Ca_i, ˆCb_j),我们计算它们相机方向之间的角度的余弦值。最后,保留最接近的k对,其中k=10在我们的实验中。由于粗对齐的存在,这一步可以准确且快速地剔除许多无用的对。
视角共享区域计算
:为了实现更精确的选择,对于步骤1后保留的每一对(Ca_p, ˆCb_q),我们进一步计算它们共享的视角区域面积。为此,我们分别从GaussianA和GaussianB渲染出两个低分辨率的深度图dap和db_q。然后,我们计算从ˆCb_q可以看到的dap中点的比例,以及从Ca_p可以看到的db_q中点的比例。通过评估这两个比例的平均值,我们找到最接近的一对(Ca_i0, ˆCb_j0)。由于高斯展开(GS)的快速渲染速度,深度图的渲染得以高效完成。
选择训练相机子集
:最后,我们分别在Ca_i0和ˆCb_j0的邻域内挑选两个训练相机子集。在所选的相机下,通过从GaussianA和GaussianB渲染得到图像集IA和IB,以供后续的特征提取阶段使用。
6. 实验结果
ScanNet-GSReg 数据集评估
由于运动恢复结构(SFM)技术的成熟,使用高斯展开(GS)进行三维配准的一种自然方法是渲染大量图像并利用SFM进行联合配准。因此,我们选择当前最先进的方法HLoc(SuperPoint + SuperGlue)作为ScanNet数据集上的比较基准。在后续讨论中,为了简洁起见,我们将HLoc(SuperPoint+ SuperGlue)简称为HLoc。
对于两个待配准的GS模型,我们各自均匀采样30个训练姿态来渲染图像,并使用总共60张图像供HLoc进行姿态估计。我们可以按照NeRFuser中描述的程序获得两个GS模型的配准结果。此外,我们还通过输入来自GS的点云来评估传统的点云配准方法Fast Global Registration (FGR)和深度点云配准方法REGTR(在3DMatch上重新训练)。FGR和REGTR之后也使用了带缩放的ICP求解器来输出变换结果,并且我们也将输入点的数量限制为30000。定量结果如表1所示,其中成功比率表示成功配准的比例。
如表1所示,在ScanNet-GSReg的82个场景中,HLoc仅成功配准了75.6%的场景,而我们的方法达到了100%的成功比率。对于ScanNet-GSReg中的室内场景,SuperPoint有时无法提取有效的关键点,导致配准失败。在RTE和RSE指标上,我们的方法优于HLoc,并且在RRE上与之相当。值得注意的是,我们的方法比HLoc显著更快(4.8秒 vs. 212.3秒)。虽然FGR和REGTR在速度上略快于我们的GaussReg,但它们的性能远低于我们的方法。我们认为这是因为来自GS的点云比扫描数据包含更多的噪声。
在Objaverse数据集上的评估
为了与DReg-NeRF中使用的Objaverse数据集进行公平比较,我们假设两个高斯展开(GS)模型之间不存在如DReg-NeRF中所述的尺度差异。此外,我们没有采用训练姿态,仅使用我们提出的粗配准方法进行比较。如表2所示,我们的粗配准方法(无精细调整)显著优于其他未进行微调的方法,这表明我们的方法对物体具有强大的泛化能力。
在GSReg数据集上的评估
我们的GSReg数据集的真实配准结果是在HLoc成功时获得的。如表2所示,我们的方法(无精细调整)的配准结果与HLoc相近,证明了我们的方法具有强大的泛化能力。此外,我们的完整方法(包含精细配准)显著优于我们的粗配准方法(无精细调整),这证明了精细配准的有效性。
7. 总结 & 限制性 & 未来工作
局限性与未来工作
我们仅采用了一种简单的策略来融合和过滤两个高斯展开(GS)模型。对于一些更复杂的情况,我们的融合方式并不完美。例如,当两个场景在不同时间捕获时,光照变化可能导致两个场景的外观不同。因此,通过我们的策略获得的融合GS模型可能在融合边界处表现出不一致性。未来的工作可以进一步探索解决这一问题的方法。
结论
神经辐射场(NeRF)的出现彻底改变了三维场景表示的领域,同时也对配准方法提出了新的要求。然而,由于隐式建模的几何关系固有的复杂性,针对大规模场景的NeRF表示的配准仍然是一个未被充分探索的领域。最近引入的高斯展开(GS)通过引入显式的三维高斯分布,显著增强了NeRF,在保持高质量的同时实现了快速渲染。在本研究中,我们介绍了GaussReg,这是一种开创性的粗到细框架,它利用GS进行GS的三维配准。粗配准阶段利用现有的点云配准方法,为输入的GS点云建立初步对齐。我们创新性地设计了一种图像引导的精细配准策略,该策略结合了这些高斯点渲染的图像,丰富了几何细节以实现精确对齐。为了全面评估我们的方法,我们构建了一个包含ScanNet场景和几个野外场景的基准测试集。实验结果表明,GaussReg在多个数据集上均表现出最先进的性能。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、