0. 论文信息
标题:GLS: Geometry-aware 3D Language Gaussian Splatting
作者:Jiaxiong Qiu, Liu Liu, Zhizhong Su, Tianwei Lin
机构:Horizon Robotics
原文链接:https://arxiv.org/abs/2411.18066
代码链接:https://github.com/JiaxiongQ/GLS
1. 导读
近年来,3D Gaussian Splatting (3DGS)在室内表面重建和开放词汇分割方面取得了显著的性能。本文提出了GLS,一个基于3DGS的表面重建和开放词汇切分的统一框架。GLS通过探索两个领域之间的相关性扩展了它们。对于室内表面重建,我们引入表面法线先验作为几何线索来指导渲染法线,并使用法线误差来优化渲染深度。对于开放词汇分割,我们使用2D剪辑特征来指导实例特征,并利用DEVA掩码来增强它们的视图一致性。大量实验证明了联合优化表面重建和开放词汇分割的有效性,其中GLS在蘑菇,ScanNet++和LERF-OVS数据集上超过了每个任务的最新方法。
2. 引言
基于3D高斯球(3DGS)的表面重建和开放词汇分割因其高效的训练和实时渲染能力,在增强现实/虚拟现实(AR/VR)和具身智能领域得到了广泛应用。近年来,这两个领域的研究工作取得了显著进展。
在表面重建方面,SuGaR提出了正则化项,用于对齐高斯分布和场景表面,然后利用泊松重建从高斯分布中提取网格。在开放词汇分割方面,LangSplat和OpenGaussian成功地将语义对齐模块(SAM)和对比语言-图像预训练(CLIP)引入3DGS。高斯分组利用通用时序传播模型DEVA获得跨视角一致的对象掩码,并提出了一个3D正则化项用于高斯分组。然而,这些方法仅专注于单一任务,并且在复杂的室内场景中性能不稳定。
在本文中,我们的目标是基于3DGS实现高效且稳健的室内表面重建和开放词汇分割。我们的目标有两个主要动机。一方面,2D开放词汇监督自然存在视角不一致性,这容易导致从高斯分布中分割出的对象出现噪声主体和模糊边界。而准确的场景表面由清晰且平滑的对象表面组成,这表明高斯分布主要分布在对象上并保留了对象边界。这一特性可以使从高斯分布中得到的对象分割结果更加清晰和锐利。另一方面,由于室内场景的复杂材质和光照条件,无纹理和反射对象上的阴影和高光区域总是导致噪声表面。幸运的是,准确的对象掩码可以消除对象表面的干扰细节。因此,对象分割结果可以为这些对象提供平滑性先验,从而减少重建噪声。总的来说,两者的优化目标可以认为是相同的。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
基于上述动机,我们引入了GLS框架,该框架利用表面重建和开放词汇分割之间的互补性来提升两者的性能。具体来说,我们首先引入法线先验正则化从渲染深度估计得到的表面法线。然后,我们分析了不同法线误差下渲染深度的不同情况,并提出了一个正则化项来增强场景表面的锐度。为了整合开放词汇信息,我们将高斯语义特征添加到原始3DGS中,然后利用DEVA提供的一致对象掩码和CLIP提供的图像特征进行监督。此外,我们将CLIP特征视为平滑性先验,以增强无纹理和反射表面的准确性。最后,我们采用从渲染深度得到的截断符号距离函数(TSDF)融合来提取场景网格,并计算输入文本嵌入与学习的语义嵌入之间的相似性,以获取对象掩码。我们在MuSHRoom[36]、ScanNet++[49]和LERFOVS[26, 34]数据集上进行了大量实验。我们的模型在两个任务上的优越性能证明了在3DGS中连接表面重建和开放词汇分割的有效性。
3. 效果展示
室内表面重建和开放词汇分割。阴影和高光区域使得最先进的方法在室内场景中举步维艰。我们提出的GLS联合优化了基于3DGS的两个任务,并获得了比OpenGaussian和2DGS好得多的结果。
4. 主要贡献
我们的技术贡献如下:
我们设计了一个基于3DGS的新颖框架,通过联合优化复杂室内场景中的表面重建和开放词汇分割。
我们借助几何和语义线索提出了两个正则化项,以促进重建场景表面和分割对象的锐度和平滑性。
我们的方法继承了3DGS的训练和渲染效率,并在表面重建和开放词汇分割任务上实现了最先进的准确性。
5. 方法
给定相机在室内场景中捕获的多视角RGB图像,我们的目标是联合重建场景和开放词汇对象。为实现这一目标,我们引入了基于3DGS的新颖框架GLS。如图3所示,我们的框架包括三个步骤。在输入步骤中,我们使用通用模型SAM、DEVA和CLIP生成2D一致语义掩码ˆM和对象级特征ˆF。然后,我们采用表面法线估计的通用模型来获取几何线索ˆN。在优化步骤中,我们利用语义和法线先验进行正则化。我们首先遵循先前的方法来正则化渲染颜色、深度和语义特征。然后,我们提出了一个新的平滑项来处理无纹理区域,并通过分析高斯分布的法线误差提出了一个新的约束来优化对象结构。在推理步骤中,我们的模型同时重建室内表面并根据开放词汇文本选择目标对象。
6. 实验结果
对于室内表面重建,我们在两个真实世界的数据集上进行了比较,包括MuSHRoom和ScanNet++。我们在表1中报告了评估指标值。可以看出,在所有评估指标中,我们的方法在未使用传感器深度信息的情况下,优于其他基于3D几何结构(3D Geometric Structure,3DGS)的方法。当采用传感器深度作为场景尺度的先验信息时,根据准确性和法线一致性评估指标,我们的模型在锐利度和平滑度方面也优于DN-Splatter。借助深度多层感知器(Multilayer Perceptron,MLP)网络,基于符号距离场(Signed Distance Function,SDF)的方法MonoSDF可以为每个密集采样的3D点学习实际尺度。然而,该方法的训练效率较低。我们的模型不仅性能相当,还将训练时间缩短了30倍。
定性比较。如图6所示,在MuSHRoom数据集上展示了不同方法产生的表面重建结果。可以观察到,DNSplatter在场景表面产生了严重的噪声,甚至由于无纹理区域而破坏了物体结构。
相反,我们的模型重建出了平滑且锐利的场景表面,并且比真实场景表面恢复了更多的薄结构。这一观察结果表明,表面重建和开放词汇分割的联合优化可以显著提升重建质量。对于未使用传感器深度作为监督信息的基于3DGS的方法,由于相机运动和光照条件的复杂性,PGSR表现出不稳定的性能,并且在大多数场景中失败。与2D几何结构(2D Geometric Structure,2DGS)相比,我们的模型在处理阴影和高光区域时表现更好,并且生成了更清晰的场景表面。
此外,我们进一步评估了所有方法在ScanNet++数据集上的泛化能力,如图7所示。这些场景包含了各种光照条件,这使得场景表面的重建更具挑战性。因此,DN-Splatter的结果中出现了更多噪声,而我们的结果仍然保持锐利和平滑。MonoSDF通过过度平滑的效果减少了光照条件的干扰,但导致丢失了一些物体(例如,电脑支架和屏幕)。对于未使用传感器深度作为监督信息的基于3DGS的方法,PGSR和2DGS产生了无意义的结果,而我们的结果成功地处理了这些场景。
7. 总结
在本文中,我们提出了GLS,这是一种新颖的基于3DGS的框架,它有效地结合了室内表面重建和开放词汇分割。我们提出利用2D几何和语义线索来联合优化3DGS在两个任务上的性能。我们设计了两个新的正则化项,以增强场景表面的锐利度和平滑度,进而提升分割质量。在开放词汇分割和室内表面重建任务上的综合实验表明,GLS在定量和定性方面都优于最先进的方法。此外,消融研究探索了两个任务中每个正则化项的有效性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球