Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting(ECCV 2024)
论文链接:https://arxiv.org/abs/2401.01339v2
代码链接:https://github.com/zju3dv/street_gaussians
浙大&理想在ECCV 2024上的工作:本文旨在解决自动驾驶场景中动态城市街道的建模问题。最近的方法通过将跟踪的车辆姿态结合到车辆动画中来扩展NeRF,实现了动态城市街道场景的照片级逼真视图合成。然而,它们的训练速度和渲染速度都很慢。为此本文引入了Street Gaussians,这是一种新的显式场景表示,可以解决这些限制。具体来说,动态城市场景被表示为一组配备语义逻辑和3D高斯的点云,每个点云都与前景车辆或背景相关联。为了仿真前景目标车辆的动力学,每个目标点云都使用可优化的跟踪姿态进行优化,并使用4D球谐模型进行动态外观优化。显式表示允许轻松组合目标车辆和背景,这反过来又允许在半小时的训练内以135 FPS(1066×1600分辨率)进行场景编辑操作和渲染。该方法在多个具有挑战性的基准上进行了评估,包括KITTI和Waymo Open数据集。实验表明在所有数据集上,所提出的方法始终优于最先进的方法。
GaussianPro: 3D Gaussian Splatting with Progressive Propagation
论文链接:https://arxiv.org/abs/2402.14650v1
代码链接:https://github.com/kcheng1021/GaussianPro
中科大&港大的工作:3DGS的出现最近在神经渲染领域带来了一场革命,促进了实时速度的高质量渲染。然而,3DGS在很大程度上依赖于运动结构(SfM)技术产生的初始化点云。当处理不可避免地包含无纹理曲面的大规模场景时,SfM技术总是无法在这些曲面上产生足够的点,也无法为3DGS提供良好的初始化。因此,3DGS存在优化困难和渲染质量低的问题。在这篇论文中,受经典多视图立体(MVS)技术的启发,我们提出了GaussianPro,这是一种应用渐进传播策略来指导3D Gaussian致密化的新方法。与3DGS中使用的简单分割和克隆策略相比,我们的方法利用场景现有重建几何的先验和补丁匹配技术来生成具有精确位置和方向的新高斯分布。在大规模和小规模场景上的实验验证了我们方法的有效性,我们的方法在Waymo数据集上显著超过了3DGS,在PSNR方面提高了1.15dB。
LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes
论文链接:https://arxiv.org/abs/2405.00900v2
加州大学欧文分校的工作:真实仿真在自动驾驶等应用中起着至关重要的作用,神经辐射场(NeRF)的进步可以通过自动创建数字3D资产来实现更好的可扩展性。然而,由于共线相机的大运动和高速下的稀疏样本,街道场景的重建质量会受到影响。另一方面,实际使用通常要求从偏离输入的相机视图进行渲染,以准确模拟车道变换等行为。在这篇论文中,我们提出了几个见解,可以更好地利用激光雷达数据来提高街道场景的NeRF质量。首先,我们的框架从激光雷达中学习几何场景表示,将其与隐式基于网格的表示融合用于辐射解码,然后提供显式点云提供的更强几何信息。其次提出了一种鲁棒的遮挡感知深度监督方案,该方案允许通过累积来利用密集的激光雷达点。第三本文从激光雷达点生成增强训练视图,以进一步改进。我们的见解转化为在真实驾驶场景下大大改进的新视图合成。
Gaussian: Self-Supervised Street Gaussians for Autonomous Driving
论文链接:https://arxiv.org/abs/2405.20323v1
UC Berkeley&北大&清华的工作:街道场景的真实感3D重建是开发自动驾驶仿真的关键技术。尽管神经辐射场(NeRF)在驾驶场景中的效率很高,但3DGS因其更快的速度和更明确的表示而成为一个有前景的方向。然而,大多数现有的街道3DGS方法需要跟踪的3D车辆边界框来分解静态和动态元素以进行有效的重建,这限制了它们在自由场景中的应用。为了在没有标注的情况下实现高效的3D场景重建,我们提出了一种自监督街道高斯(S3Gaussian)方法,用于从4D一致性中分解动态和静态元素。我们用3D高斯分布来表示每个场景,以保持其明确性,并进一步用时空场网络来压缩4D动力学模型。我们在具有挑战性的Waymo Open数据集上进行了广泛的实验,以评估我们方法的有效性。我们的S3Gaussian展示了分解静态和动态场景的能力,并在不使用3D标注的情况下实现了最佳性能。
Dynamic 3D Gaussian Fields for Urban Areas
论文链接:https://arxiv.org/abs/2406.03175v1
代码链接:https://github.com/tobiasfshr/map4d(待开源)
ETH和Meta的工作:本文提出了一种高效的神经3D场景表示方法,用于大规模动态城市地区的新视图合成(NVS)。由于其有限的视觉质量和非交互式渲染速度,现有工作品不太适合混合现实或闭环仿真等应用。最近,基于光栅化的方法以令人印象深刻的速度实现了高质量的NVS。然而,这些方法仅限于小规模、均匀的数据,即它们无法处理由于天气、季节和光照引起的严重外观和几何变化,也无法扩展到具有数千张图像的更大、动态的区域。我们提出了4DGF,这是一种神经场景表示,可扩展到大规模动态城市区域,处理异构输入数据,并大大提高了渲染速度。我们使用3D高斯作为高效的几何支架,同时依赖神经场作为紧凑灵活的外观模型。我们通过全局尺度的场景图集成场景动力学,同时通过变形在局部层面建模关节运动。这种分解方法实现了适用于现实世界应用的灵活场景合成。在实验中,我们绕过了最先进的技术,PSNR超过3dB,渲染速度超过200倍。
StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views
论文链接:https://arxiv.org/abs/2306.04988v1
代码链接:https://github.com/pjlab-ADG/neuralsim
上海AI Lab和商汤的工作:本文提出了一种新的多视图隐式表面重建技术,称为StreetSurf,该技术很容易应用于广泛使用的自动驾驶数据集中的街景图像,如Waymo感知序列,而不一定需要LiDAR数据。随着神经渲染研究的迅速发展,将其整合到街景中开始引起人们的兴趣。现有的街景方法要么主要关注新视图合成,很少探索场景几何,要么在研究重建时严重依赖密集的LiDAR数据。他们都没有研究多视图隐式表面重建,特别是在没有激光雷达数据的情况下。我们的方法扩展了现有的以目标为中心的神经表面重建技术,以解决由非以目标为核心、长而窄的相机轨迹捕获的无约束街景所带来的独特挑战。我们将无约束空间划分为近距离、远景和天空三个部分,具有对齐的长方体边界,并采用长方体/超长方体哈希网格以及路面初始化方案,以实现更精细和更复杂的表示。为了进一步解决无纹理区域和视角不足引起的几何误差,我们采用了使用通用单目模型估计的几何先验。再加上我们实施了高效细粒度的多级光线行进策略,我们使用单个RTX3090 GPU对每个街道视图序列进行训练,仅需一到两个小时的时间,即可在几何和外观方面实现最先进的重建质量。此外,我们证明了重建的隐式曲面在各种下游任务中具有丰富的潜力,包括光线追踪和激光雷达模拟。
AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction
论文链接:https://arxiv.org/abs/2407.02598v2
多伦多大学和华为诺亚的工作:逼真的场景重建和视图合成对于通过仿真安全关键场景来推进自动驾驶系统至关重要。3DGS在实时渲染和静态场景重建方面表现出色,但由于复杂的背景、动态对象和稀疏视图,在建模驾驶场景方面遇到了困难。我们提出了AutoPlat,这是一个采用Gaussian Splatting实现自动驾驶场景高度逼真重建的框架。通过对表示道路和天空区域的高斯分布图施加几何约束,我们的方法能够对包括车道变换在内的具有挑战性的场景进行多视图一致的模拟。利用3D模板,我们引入了反射高斯一致性约束来监督前景对象的可见面和不可见面。此外,为了模拟前景对象的动态外观,我们估计了每个前景高斯的残差球面谐波。在Pandaset和KITTI上进行的大量实验表明,AutoPlat在各种驾驶场景中的场景重建和新颖视图合成方面优于最先进的方法。
DHGS: Decoupled Hybrid Gaussian Splatting for Driving Scene