专栏名称: 点云PCL
公众号将会推送基于PCL库的点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群,而且组建github组群,有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。
目录
相关文章推荐
FM1007福建交通广播  ·  女歌手唐伯虎被曝拖欠劳务费,其工作室被起诉立 ... ·  15 小时前  
上海教育  ·  大年初七,欣赏男声合唱《夏》 ·  3 天前  
上海教育  ·  大年初七,欣赏男声合唱《夏》 ·  3 天前  
富兰克林读书俱乐部  ·  那个连登14次春晚的歌坛巨星,如今家产被拍卖 ... ·  3 天前  
福州日报  ·  国防部发布:当那一天来临 ·  4 天前  
福州日报  ·  国防部发布:当那一天来临 ·  4 天前  
51好读  ›  专栏  ›  点云PCL

现代3D场景重建方法评估:NeRF与基于高斯的方法对比

点云PCL  · 公众号  ·  · 2024-08-26 08:00

正文

文章:Evaluating Modern Approaches in 3D Scene Reconstruction: NeRF vs Gaussian-Based Methods

作者:Yiming Zhou,Zixuan Zeng,Andi Chen,Xiaofan Zhou,Haowei Ni,Shiyao Zhang,Panfeng Li,Liangxi Liu,Mengyao Zhen,Xupeng Chen

编辑:点云PCL


欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。 文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系[email protected] 文章未申请原创 侵权或转载 联系微信cloudpoint9527。

摘要


本研究探讨了神经辐射场(NeRF)和基于高斯的方法在3D场景重建中的能力,并将这些现代方法与传统的同步定位与地图构建(SLAM)系统进行了对比。通过使用Replica和ScanNet等数据集,基于跟踪精度、建图保真度和视图合成能力对性能进行了评估。研究发现NeRF在视图合成方面表现出色,能够从现有数据中生成新的视角,尽管处理速度较慢。相比之下,基于高斯的方法提供了快速处理和显著的表达能力,但在场景完成的全面性上有所欠缺。借助全局优化和循环闭合技术,诸如NICE-SLAM和SplaTAM等新方法不仅在鲁棒性上超越了较早的框架(如ORB-SLAM2),还在动态和复杂环境中展示了更优越的性能,此次对比分析将理论研究与实际应用相结合,为未来在各种现实应用中稳健的3D场景重建技术的发展提供了启示。

主要贡献


深度学习的持续集成不仅提高了SLAM系统的适应性,还显著减少了处理复杂数据集的延迟。尽管有这些创新,3D重建仍然是一个复杂的挑战,现有算法往往在某一方面表现突出,而在其他方面有所妥协。本文重点对比了两种最先进的3D重建算法—NeRF和基于高斯的方法,分析了它们各自的优缺点,NeRF虽然处理速度较慢,但在新视角合成方面展现了前所未有的能力,能够从现有数据中生成新的视角。相比之下基于高斯的方法因其速度和表达能力而受到关注,但在场景完成等任务上表现不足,这对于全面的环境理解至关重要,对这些创新方法与传统SLAM系统的比较分析显示了显著的性能改进。诸如GO-SLAM等技术不仅在跟踪精度上超越了旧系统(如ORB-SLAM2和DROID-SLAM),还在挑战性条件下的3D重建保真度上表现更佳,这些条件通常会导致传统方法中出现误差累积和不一致性。最终本研究旨在弥合理论进步与实际应用之间的差距,提供见解以指导未来3D场景重建领域的发展。

内容概述


数据采集

Replica: Replica数据集包含18个照片级真实感的3D室内场景,涵盖了多种环境,如办公室、酒店房间和公寓,这些场景细节丰富展示了密集的网格、高动态范围(HDR)纹理、语义层和反射属性。该数据集使用定制的RGB-D捕捉装置同步采集IMU、RGB和IR数据,提供了详尽的空间和纹理数据,非常适合测试基于NeRF模型的渲染能力。

ScanNet: ScanNet数据集包括来自1513个3D扫描的超过250万次视图,涵盖了各种室内位置,并配有详细的注释,该数据集使用连接到手持设备的结构传感器采集广泛的环境数据,在离线处理阶段,ScanNet将这些数据增强为包含精确6-DoF摄像机姿态和语义标签的全面3D场景重建。

模型训练

基于NeRF的模型

a) NICE-SLAM: NICE-SLAM采用结构化方法进行3D场景重建,通过多层体素网格增强细节捕捉和可扩展性,该分层网格结构在解决场景特征过度平滑等常见问题上发挥了关键作用。通过仅更新可见的网格特征,NICE-SLAM显著提高了优化精度和操作效率,与依赖全局更新并可能效率低下和错误传播的方法(如iMAP)形成鲜明对比。该算法通常利用一组预定义的参数来构建体素网格,包括在不同层次设置网格分辨率,以平衡细节和计算效率。例如,粗网格捕捉基本结构轮廓,而细网格则专注于详细的纹理和物体。然而NICE-SLAM并非没有缺点,其预测性能受限于最粗网格的分辨率,这可能限制其在需要高精度大规模场景中的适用性。

b) Point-SLAM: Point-SLAM引入了一种动态神经点云方法,根据数据驱动的详细需求调整密度,显著提高了内存效率。通过利用每像素图像梯度,模型智能地调节点密度,集中在需要更多细节的区域,并简化复杂性较低的区域。随着探索的进行,Point-SLAM扩展点云,通过在较少细节区域压缩点密度来优化空间使用,从而在实时场景重建中保持计算效率。在Point-SLAM中,模型的参数化对于微调其动态神经点云至关重要。典型参数包括根据场景复杂性动态调整的点云分辨率。模型还利用与梯度阈值相关的参数,基于每像素图像梯度控制点密度。此外,空间优化参数通过管理点在较少细节区域的分布和压缩,确保高效的内存使用。这些参数对于在实时应用中保持细节保真度和计算效率之间的平衡至关重要。

图1:基于NeRF的3D重建系统的高级架构

基于高斯的方法

a) SplaTAM: SplaTAM是一个用于密集RGB-D SLAM的鲁棒框架,通过先进的喷涂技术实现了3D环境中高效的跟踪与映射。SplaTAM利用3D高斯喷涂技术表示环境,为有效集成传感数据提供了连续和平滑的密度函数,增强了在复杂场景中的建图质量。SplaTAM的第一步是从RGB-D相机获取数据,收集颜色和深度信息。深度数据经过过滤并与RGB帧对齐,确保表示的一致性。随后算法从输入的深度数据中构建称为“喷涂”的3D高斯。每个喷涂由其均值、协方差和颜色表示,能够丰富地表示场景的几何形状和外观。在跟踪方面SplaTAM采用优化的关键帧选择技术,在保持准确定位的同时显著节省了计算成本。该框架利用粒子滤波器通过喷涂模型传播一组假设来跟踪主体的姿态。每个粒子都包含喷涂信息,使其在动态环境中实现多假设跟踪,数据关联过程采用基于似然的方法,评估观测到的特征与现有喷涂之间的对应关系,从而更新粒子权重。SplaTAM中的映射通过使用卡尔曼滤波方法将新观测实时整合到现有喷涂表示中,并根据输入数据调整其参数。算法通过分类喷涂为静态或动态元素,智能地管理遮挡和动态元素,利用鲁棒的离群值拒绝策略确保静态地图的长期完整性。广泛的评估表明,SplaTAM在建图保真度和定位精度方面优于传统的SLAM系统,使其适合在挑战性场景中的实时应用。为了确保稳健的性能,几何一致性和计算效率等指标得到持续监控,为在复杂和动态环境中导航提供了重要框架。然而SplaTAM的计算复杂性可能会妨碍其在资源受限环境中的实时性能。

b) 高斯喷涂SLAM: 由Matsuki等人提出的高斯喷涂SLAM旨在通过先进的高斯喷涂技术实现实时同步定位与地图构建。系统集成了深度和RGB相机的数据,处理这些信息以在准确估计主体轨迹的同时对环境进行建模。该方法将3D环境中的每个点表示为一个由均值和协方差定义的球形高斯,捕捉局部几何形状和不确定性。通过使用加权平均法将新观测整合到全局地图中,考虑到测量不确定性,从而生成平滑的表面表示。使用ORB或SIFT等关键点检测算法来识别独特的特征,并通过高斯特性来评估对应关系的鲁棒匹配框架,RANSAC用于过滤离群值,增强数据关联的鲁棒性,并在长时间操作期间通过回环检测提高映射精度。高斯喷涂SLAM经过优化以实现实时操作,平衡高效的地图更新与准确的定位,以快速响应环境变化,这对于机器人应用至关重要。性能通过映射精度、定位精度和计算效率进行评估,评估生成地图的质量、主体轨迹的一致性和整体资源利用率,包括基于图的优化和光束调整在内的各种优化策略确保了主体轨迹和3D地图的准确估计,然而该方法在处理遮挡和动态环境时可能会遇到困难,从而导致不准确性,并且需要仔细调整参数,这可能会限制其在不同平台上的适应性。

图2:3D高斯喷涂流程图

评估


评估指标

在3D重建的背景下,性能主要从三个领域进行严格评估:跟踪、建图和视图合成。跟踪评估系统在空间中准确跟踪相机轨迹的能力,这是保持与3D模型对齐的关键。建图侧重于从捕获的数据生成的3D结构的准确性和完整性,强调需要精确和全面的环境细节。视图合成则考察系统从重建的3D模型中创建新视点的能力,测试模型在虚拟现实等应用中的实用性,其中用户可以从未被数据捕获的角度探索环境。每个领域都利用特定的指标来评估重建过程的不同方面,从而确保对系统性能的全面评估。此外利用Zhang的方法结合了自适应学习技术,以进一步增强数据分析过程,旨在优化未来规划的结果。

  1. 跟踪:绝对轨迹误差 (ATE)衡量估计的相机轨迹与真实轨迹之间的差异。该指标对于评估SLAM系统在环境中移动时的精度至关重要。

  2. 建图:精度表示识别为结构部分的点的准确性,评估重建的点中有多少是真实正样本。召回率衡量算法识别场景中结构相关实例的能力,评估重建的完整性。深度L1误差计算预测深度值与真实深度值之间的绝对差异,这一指标对于理解模型的深度准确性至关重要。

  3. 视图合成:峰值信噪比 (PSNR)通过比较合成图像与原始视图来评估重建视图的质量,重点关注视觉输出的保真度和清晰度。

比较分析

评估并比较了四种最先进的3D场景重建算法的性能:NICE-SLAM、Point-SLAM、SplaTAM和Gaussian Splatting SLAM,利用两项主要性能指标:渲染质量和跟踪精度。评估数据来自在Replica数据集上进行的实验。

渲染性能 :渲染性能通过三项指标量化:PSNR(峰值信噪比)、SSIM(结构相似性指数)和LPIPS(感知图像块相似度),PSNR和SSIM值越高,图像重建质量越好,而LPIPS越低,感知上与真实情况的相似度越高。

  • NICE-SLAM 的平均PSNR、SSIM和LPIPS值分别为24.42 dB、0.81和0.23,在办公室场景中表现良好,但在高纹理环境中表现不佳,表明其在处理复杂纹理或光照条件时可能存在局限性。

  • Point-SLAM 表现出卓越的渲染质量,平均PSNR和SSIM得分分别为35.17 dB和0.98,LPIPS为0.14,突显了其在详细和多样化环境条件下的鲁棒性。

  • SplaTAM 也展示了强大的渲染能力,其PSNR为34.11 dB,SSIM略低于Point-SLAM,为0.97,平均LPIPS为0.10,表明其在多样化设置中的高感知质量。

  • Gaussian Splatting SLAM 的PSNR最高,为37.50 dB,并在SSIM(0.96)和LPIPS(0.07)之间取得了良好的平衡,反映了其在不同场景中创建高保真重建的效率。

图3:使用基于NeRF的方法在Replica数据集上的重建性能,各列显示了NICE-SLAM和Point-SLAM的重建结果,并与真实情况进行了对比。

跟踪性能 :跟踪精度通过ATE RMSE指标进行评估,数值越低表明轨迹跟踪越精确。

  • NICE-SLAM 的平均ATE RMSE为1.06 cm,显示出可靠的跟踪能力,但在不同环境中存在一些不一致性。

  • Point-SLAM 的平均ATE RMSE为0.52 cm,表现出卓越的跟踪精度,尤其在复杂的室内环境中表现优于其他模型。

  • SplaTAM 的跟踪性能最佳,平均ATE RMSE仅为0.36 cm,表明其轨迹估计极为准确。

  • Gaussian Splatting SLAM 在跟踪方面表现混杂,整体平均ATE RMSE为0.44 cm。在动态性较低的环境中表现出色,但在更具挑战性的设置中出现了显著错误,正如在某个办公室场景中测得的2.25 cm异常值所示。

图4:使用基于高斯喷涂方法在Replica数据集上的重建性能。顶部显示的是SplaTAM的结果,底部显示的是高斯喷涂SLAM的结果。前两列显示了内部视图,最后一列显示了外部视图,与基于NeRF的方法相比,基于GS(高斯喷涂)的方法在创建平滑表面时存在困难,导致明显的高斯气泡现象。

综合评估 :在综合考虑渲染和跟踪性能时,Point-SLAM 和 SplaTAM 成为领先者,提供了高保真度和精度的3D场景重建的强大解决方案。NICE-SLAM 尽管有效,但在复杂条件下表现出局限性。Gaussian Splatting SLAM 提供了出色的渲染结果,但在所有场景中保持一致的跟踪精度方面面临挑战。

总结


本研究对四种领先的3D场景重建算法(NICE-SLAM、Point-SLAM、SplaTAM和高斯喷涂SLAM)进行了全面评估,使用了详细且多样化的Replica数据集。研究结果表明尽管每种算法都有其独特的优势,Point-SLAM和SplaTAM在渲染和跟踪精度方面总体表现更佳。这些算法为精确的3D场景重建提供了可靠的解决方案,展示了它们在各种现实环境和挑战中的适用性。尽管本研究进行了详尽的分析,但也承认存在一些局限性。算法的计算效率和实时处理能力并未得到全面量化,而这些都是在机器人和增强现实应用中至关重要的因素。此外研究并未考虑硬件性能的差异,这可能会显著影响每种算法的有效性。未来的研究应针对这些局限性,扩大评估框架,包括户外环境和更具动态性的场景,通过持续优化这些算法,未来的研究可以为更广泛的应用和现有及新兴领域的改进铺平道路。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++:基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

ROS2入门之基本介绍

固态激光雷达和相机系统的自动标定

激光雷达+GPS+IMU+轮速计的传感器融合定位方案

基于稀疏语义视觉特征的道路场景的建图与定位

自动驾驶中基于激光雷达的车辆道路和人行道实时检测(代码开源)







请到「今天看啥」查看全文