专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

长安 AILab 提出 DHGS,采用解耦和混合的像素级混合器,驾驶场景新视图合成质量大幅提升 !

智驾实验室  · 公众号  ·  · 2024-08-02 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

现有的高斯扩散方法在驾驶场景中难以实现令人满意的新视图合成,这是由于缺乏对相关元素精细设计和几何约束的考虑。本文提出了一种名为解耦混合高斯扩散(DHGS)的新方法,旨在提升驾驶场景新视图合成的渲染质量。

这项工作的创新之处在于,对于道路和非道路层,采用了解耦和混合的像素级混合器,而没有采用整个场景的常规统一可微渲染逻辑,同时通过所提出的深度排序渲染策略保持了叠加的一致性和连续性。此外,还训练了一种隐式的道路表示,由有符号距离场(SDF)组成,以监督具有微妙几何属性的道路表面。

伴随着辅助透射损失和一致性损失的使用,最终获得了边界难以察觉且保真度提升的新图像。在Waymo数据集上的大量实验证明,DHGS优于现有技术水平的方法。

1 Introduction

三维广义球面(3DGS)[16]的普及在三维重建和自动驾驶领域引起了众多关注。与基于NeRF的方法[15, 14]相比,采用高斯 splatting 技术的研究者能够以更高效和灵活的方式训练和部署模型。尽管高斯 splatting 技术在场景重建中已经取得了巨大的性能,但在新视图合成能力方面仍存在不足,这对于自动驾驶场景的数据合成任务尤为关键。现有方法要么以统一的方式对整个驾驶场景进行建模[16, 17, 18, 19],导致对所有类型的场景元素(如道路、建筑物和远距离视图)采取统一的增长和修剪策略,要么分别对近景和远景[20, 19]进行建模。上述方法强调整体或特定的远端元素,而未关注近处合成的质量。对于现实世界的自动驾驶场景,自动驾驶车辆通常在平滑的道路上,配备有视场重叠最小的几个摄像头,以高速行驶。作者认为应该优先保持道路的完整性,因为与道路相关的几何信息在下游感知任务中起着基础作用,并且在视角变化时较为脆弱。

图1:对新视图合成道路模型的渲染图像进行了比较分析,第一行展示了没有SDF正则化的结果,而第二行展示了使用SDF正则化的结果。通过可视化相应的椭圆体,可以观察到包含SDF正则化使道路模型学习到更高质量的几何信息。

在本文中,作者提出了一种名为针对驾驶场景的解耦混合高斯 splatting(DHGS)的方法,以提升新视图合成的渲染质量,尤其是较少缺陷和更精细细节的近处环境。该方法的灵感来源于现有的几何先验,可以用来以精细的模式监督近处道路元素以及其他非道路环境。具体来说,作者将整个驾驶场景解耦为两个分别由高斯模型表示的近处道路模型和环境模型,并相应地根据它们的几何特性优化这两个模型。在此之前,作者使用语义2D Mask 投影和分割点云,以获得初始的道路点云和环境点云。

道路点云用于预训练隐式符号距离场(SDF)。通过引入的深度排序渲染策略,结合两个模型的渲染图像混合器进行训练过程,辅助透射率损失正则化每个组件高斯属性的累积透射率,以及一致性损失将两个区域紧密绑定。此外,作者使用专门为表面正则化设计的SDF损失来优化道路元素,达到一致且有秩序的道路高斯分布。总结来说,所提出的DHGS的贡献如下:

  • 作者首次提出将驾驶场景解耦为近处道路模型和其他非道路模型,这使得可以分别优化两个模型,并通过设计的深度排序渲染策略联合渲染,
  • 作者提出了一种隐式的道路表示,以更好地引导道路高斯,同时透射率损失和一致性损失保证了连续性和一致性,
  • 在流行的Waymo数据集上进行的丰富定量和定性实验表明,DHGS在训练视图和新自由视图合成方面均达到了最先进的渲染质量。

Related Works

Neural Radiance Field Representations

NeRF方法[16]在视图合成领域引起了极大的关注,它采用多层感知机(MLP)隐式地建模3D场景。NeRF将采样点的空间坐标和观察方向作为输入送入MLP,预测相机射线中每个点的颜色和不透明度,然后通过神经体积渲染累积成像素颜色。对于每个像素,这需要采样数百个点并通过MLP预测它们的属性,导致训练和渲染阶段极为缓慢。此外,有限的采样点数量限制了在复杂和大规模驾驶场景中的表达能力。Mip-NeRF[14]提出了一种更有效的采样策略,将采样区域从单条射线改进为观察锥的截锥体。Mip-NeRF 360[14]和NeRF++[15]将场景划分为近处和远处区域,并对远处区域应用变换操作以处理无边界3D场景。Instant-NGP  使用哈希网格存储特征并减小MLP大小以减轻计算负担。Plenoxels Fridovich-Keil等人利用稀疏网格减少存储空间,并使用球面谐波(SH)来表示外观。这些方法基于360度以目标为中心的轨迹捕获的数据,而自由和长距离的驾驶场景却较少受到关注。 -NeRF 提出了一种新颖的空间变换方法,支持任意输入相机轨迹,使得能够重建驾驶场景。StreetSurf 扩展了先前的以目标为中心的神经表面重建技术,以解决无边界街景所带来的一些独特挑战,显示出在各类下游任务中的潜力。上述方法在渲染质量和效率之间仍然存在权衡,因此在大型自动驾驶场景中的应用受到了限制。

Gaussian Splatting Representations

三维高斯体(3DGS)[11]是一项开创性工作,它首次使用三维高斯椭球来显式地表示场景,并利用CUDA进行并行渲染,其渲染质量和速度远超NeRFs。它通过 -混合整合像素颜色,并执行自适应密度控制,因此输入只需稀疏点云。已有大量基于3DGS的大型场景三维重建工作被提出。VastGaussian [13]通过新颖的场景分割、优化和合并设计来处理大型场景。HUGS [16]提供了实时渲染新视角的能力,以高精度生成2D和3D语义信息。

原始的3DGS仅适配像素颜色的连贯性,未对几何结构进行建模。因此,在未见视角下会出现明显的间断,如人工痕迹和孔洞。这种间断现象在稀疏视角的训练数据集中更为突出。DRGS [12]引入了密集深度图作为几何引导,以减轻过拟合。AtomGS [15]提出了一种原子化增殖策略,旨在通过细化具有精细细节区域的3D几何精度来增强渲染质量。NeuSG [13]通过设计尺度参数的正则化损失使高斯椭球扁平化,并结合有符号距离场进行一致的联合优化。SuGaR [18]首次提出添加正则化项以鼓励高斯与表面的对齐,从而实现准确快速的网格提取。Scaffold GS [15]通过建立 Voxel  Anchor 点和相应的偏移向量精确控制高斯椭球的密度,并通过简单的多层网络学习高斯的各种参数。Gaussian Pro [10]考虑了场景中的平面先验,明确限制了高斯体的增长,实现了修正性渲染和更紧凑的表示。2DGS [12]提出了一种高度可微分的二维高斯渲染器,通过利用二维表面建模实现透视精确的溅射,显示了在几何重建方面的优势。

对于3DGS类方法,重建可靠场景几何对于驱动数据合成技术至关重要。Driving Gaussians [15],Street Gaussians [15]和S Gaussians [12]都使用LiDAR收集的点云而非SfM生成的点云进行初始化。利用LiDAR提供的密集精确点云,在学习过程中引入了额外的监督,如位置约束。

现有研究较少关注新视角合成的能力,当施加显著的摄像机变换时,会导致图像质量降低。作者提出通过将整个场景解耦为两个不同的模型,分别进行优化,以解决这一不足。

2 Preliminary

3DGS通过使用一组3D高斯分布显式地表示场景,通过基于图块的栅格化实现了高保真渲染质量和快速渲染速度。每个高斯分布 定义为:

其中 是高斯分布的平均位置, 是高斯空间内的一个离散坐标。 ,其中 是旋转矩阵, 是缩放矩阵。除了表示每个高斯分布各向异性颜色的球谐系数外,每个像素颜色通过 混合累积:

其中 是从3D高斯分布投影到2D图像平面的2D高斯分布的不透明度, 是高斯分布在观察方向的颜色。

2DGS通过采用面元(surfel)的表达式,并使用专门针对面元的投影方法,很好地确保了多视图一致性。它通过光线溅射相交实现了2D高斯渲染。光线溅射相交的过程可以表示为:

其中 是以齐次坐标表示的两个平面。通过定义函数 ,并使用目标空间低通滤波器 ,2DGS的栅格化可以表示为:

3 Method

Overview

所提出的方法利用初始点云和语义 Mask 作为多摄像头视角的并列输入。首先,点云初始化生成了道路和非道路点云,这些点云将进一步建模为道路和环境高斯模型。基于已知的道路点云,作者提出通过有符号距离函数(SDF)设计一种数学隐式道路表示,作为表面训练的先验。基于SDF的表面约束包括预训练和离线监督阶段,通过几何上的距离和法线特性加以利用。为了在透视变换中获得更好的渲染质量,作者选择用两种高斯模型来模拟道路和非道路元素。

为实现这一目标,精心设计了深度排序混合渲染方法,通过此方法,道路表面和非道路区域可以一致且连续地耦合和叠加,与采用单个高斯模型的现有SOTA方法相比,性能更优。通过融合两个模型渲染的图像将由高斯损失监督,并通过正则化项进行优化。在以下各节中,作者将按顺序介绍这个过程。

PCD Initialization

与先前的方法不同,作者选择利用激光雷达扫描,相比于从结构从运动(SfM)得到的点云,它展现出更好的多视角一致性和先验几何结构。初始点云被分类为道路和非道路部分,以便后续的训练。如图2所示,在经过校准的内外参条件下,利用Mask2Former [1]生成的多摄像头图像及其 Mask ,形成了彩色和具有语义标记的单帧点云。然后,作者将这些独立的点云拼接起来,构建道路和环境点云。

Pre-trained Surface Base On SDF

为了优化道路的几何结构并在面对视角明显变化时保持连续性,作者设计了一种基于曲面引导的道路约束。利用分离的道路点云,作者预训练了一个符号距离场作为真实道路表面的隐式表示。这种方式与NeRF中的联合射线采样优化和GSDF [23]中的几何结构和图像一致性引导不同。由于LiDAR收集的道路点云已经预先精确校准,优秀的几何结构适合作为道路学习的先验。一种直接策略是直接对属于道路的高斯分布应用距离约束。然而,考虑到椭圆体的空间几何特性,仅对高斯椭圆的中心施加约束无法完全恢复它们正确的几何形状,并可能在一定程度上限制高斯分布。因此,作者采用预训练模型通过调整接近道路表面的高斯参数来优化高斯分布。为此,作者设计了几种特定于道路相关高斯的正则化项,包括距离约束和法线方向约束,同时强制高斯分布接近道路表面并与道路法线方向对齐。

作者使用预定义的网络 来预测给定点云位置坐标的相应SDF值。对所有训练和测试坐标施加数据归一化,以获得稳定和更好的性能。为了平衡等值面上的点数和等值面外的点数,作者按以下方式制作训练数据。假设 表示道路点云,对于每个在等值面上的点 ,将分配一个假设的SDF值为0。对于等值面外的其他点,作者在 中每个点的附近区域进行随机采样,从而获得包含 的样本点集 ,对于 ,作者建立了一个从点 到符号欧氏距离 的映射:

其中 中离 最近的点。考虑到不平整的道路表面存在凸起,作者为 中的每个点生成法线方向以辅助SDF的训练。具体来说,对于 ,设 个最近邻,通过执行奇异值分解 (SVD):

其中 。与最小奇异值 对应的右奇异向量 最终被视为 的法线,记作

作者通过结合基于预测法线方向的新的法线损失,将网络预测的SDF值与预计算的 GT 值进行监督。道路SDF的优化目标写为:

其中第一项和最后一项分别指SDF值正则化和等距正则化器,中间项表示法线损失, 指点云中的点数。最优参数 将被冻结,并在后续过程中用于指导道路高斯的学习。







请到「今天看啥」查看全文