专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

同济大学提出 LiDAR4D | 仅激光雷达框架,端到端地重建驾驶场景生成逼真激光雷达点云!

智驾实验室  · 公众号  ·  · 2024-05-21 15:14

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS在很大程度上尚未被探索。之前的激光雷达NVS方法简单地从图像NVS方法转移而来,同时忽略了激光雷达点云的动态特性和大规模重建问题。鉴于这一点,作者提出了 LiDAR4D ,一个可微的仅激光雷达框架,用于新时空激光雷达视角合成。考虑到稀疏性和大规模特性,作者设计了一个4D混合表示,结合多平面和网格特征,以粗到精的方式实现有效重建。

此外,作者引入了从点云推导出的几何约束来提高时间一致性。为了真实地合成激光雷达点云,作者融入了射线丢弃概率的全局优化,以保留跨区域模式。在KITTI-360和NuScenes数据集上的大量实验表明,LiDAR4D在完成几何感知和时间一致的动态重建方面具有优越性。

代码:https://github.com/lspc-lab/LiDAR4D

1 Introduction

动态场景重建在AR/VR、机器人学和自动驾驶等各个领域都至关重要。计算机视觉中现有的先进方法能够实现高保真的3D场景重建和新型视图合成(NVS),进而服务于广泛的下游任务和应用。例如,作者可以直接从收集的传感器日志中重建驾驶场景,允许场景回放和新型数据生成。这表明它在提高数据多样性、形成数据闭环以及提高自动驾驶系统的泛化能力方面具有巨大潜力。

然而,当前大部分研究聚焦于相机的视图合成,而其他传感器如激光雷达(LiDAR)在很大程度上尚未被探索。与相机图像类似,激光雷达点云也是场景的部分观察,不同位置和视图之间会有所变化。由于激光雷达点云的稀疏性、不连续性和遮挡,重建面临相当大的挑战。此外,如图1所示,动态场景同时结合了新型空间视图和时序视图合成。同时,动态目标的大幅运动使得对齐和重建变得困难。

传统的基于激光雷达的3D场景重建技术直接在世界坐标系中聚合多个稀疏点云帧,并将它们进一步转换为显式表面表示,如三角网格。随后,通过执行光线投射来计算激光束与网格表面的交点,以渲染新型视图的激光雷达点云。

然而,复杂大规模场景的高质量表面重建难以完成,可能导致显著的几何误差。此外,上述显式重建方法局限于静态场景,并且难以准确建模实际激光雷达点的强度或光线跌落特性。

神经辐射场隐式重建场景并通过在连续表示空间中的体积渲染生成新型视图数据,这也为激光雷达重建提供了另一种解决方案。因此,最近的研究开始关注激光雷达的新型视图合成。NeRF-LiDAR整合图像和点云模态进行激光雷达合成,而仅激光雷达的方法如LiDAR-NeRF和NFL探索了在没有RGB图像的情况下进行激光雷达重建和生成的可能性。大多数先前的方法直接将图像NVS Pipeline 应用于激光雷达点云。然而,激光雷达点云本质上与2D图像不同,这对当前激光雷达NVS方法实现高质量重建提出了挑战:

  1. 先前的方法局限于静态场景,忽视了自动驾驶场景的动态性;
  2. 激光雷达点云的巨大规模和高稀疏性对表示提出了更高要求;
  3. 合成逼真性需要强度和光线跌落特性建模。

为了克服上述局限,作者提出了LiDAR4D,通过三个关键洞见提升了当前的激光雷达NVS Pipeline 。为了处理动态目标,作者引入了从点云派生的几何约束,并聚合多帧动态特征以保持时序一致性。关于紧凑型大规模场景重建,作者设计了一种从粗到精的混合表示,结合多平面和网格特征重建平滑几何和高频强度。此外,作者采用全局优化来保留跨区域的模式,以细化光线跌落概率。因此,LiDAR4D能够在大型动态场景下实现几何感知和时间一致性的重建。

作者在KITTI-360和NuScenes自动驾驶数据集的多样化动态场景上评估了LiDAR4D。通过全面的实验,LiDAR4D在激光雷达NVS方面显著优于先前的基于NeRF的隐式方法和显式重建方法。与LiDAR-NeRF相比,作者在KITTI-360数据集和NuScenes数据集上分别实现了24.3%和24.2%的CD误差降低。在其他指标如测距深度和强度方面也具有类似的优势。

总之,作者的主要贡献有三点:

  • 作者提出了LiDAR4D,一个可微的仅激光雷达框架,用于新型时空激光雷达视图合成,它端到端地重建动态驾驶场景并生成逼真的激光雷达点云。
  • 作者引入了4D混合神经表示和从点云派生的运动先验,用于大型场景的几何感知和时间一致性重建。
  • 全面的实验证明了LiDAR4D在具有挑战性的动态场景重建和新型视图合成方面的最先进性能。

2 Related Work

激光雷达模拟 。传统的模拟器,如CARLA,基于物理引擎,可以通过在手工制作的虚拟环境中进行光线投射生成激光雷达点云。然而,这种方法在多样性上有限,且依赖于成本高昂的3D资产。并且与真实世界数据相比,仍然存在很大的领域差距。因此,一些近期的研究通过在模拟前从真实数据中重建场景,进一步缩小了这一差距。LiDARsim重建了网格表面表示,并采用神经网络学习光线消失的特性。

此外,值得注意的是,还有像NKSR这样的其他表面重建工作,可以将激光雷达点云转换为网格表示。然而,这些显式重建工作在大规模复杂场景中恢复精确表面较为麻烦,这也进一步导致了点云合成的准确性降低。相比之下,PCGen直接从点云重建,然后以光栅化方式进行渲染和首次峰值平均。尽管它更好地保留了原始信息,但渲染后的点云仍然相对较吵。此外,上述所有显式方法仅适用于静态场景。与此相反,LiDAR4D通过时空神经辐射场隐式重建连续表示,从而实现了更高质量的真实点云合成,并摆脱了静态重建的限制。

神经辐射场 。近期大量基于神经辐射场的研究在新型视图合成(NVS)任务上取得了突破性的成果。基于多层感知器(MLPs), Voxel 网格,平面,向量分解,以及多级哈希网格等多种神经表示已经被充分用于重建和合成。然而,大部分工作主要集中在以目标为中心的小型室内场景重建。随后,一些研究逐渐将其扩展到大规模户外场景。尽管如此,神经辐射场通常在仅使用RGB图像输入时存在几何模糊的问题。因此,DS-NeRF和DDP-NeRF引入了深度先验以提高效率,而URF也利用激光雷达点云促进重建。在本文中,作者采用新颖的混合表示和神经激光雷达场来重建大规模场景,用于激光雷达NVS。

用于激光雷达NVS的NeRF 。最近,一些研究开创了基于神经辐射场的激光雷达点云新颖视图合成,显著超越了传统模拟方法。其中,NeRF-LiDAR和UniSim需要同时输入彩色图像和激光雷达点云,并通过光度损失和深度监督重建驾驶场景。随后,可以通过神经深度渲染生成新颖视图的激光雷达点云。在仅激光雷达的方法中,LiDAR-NeRF和NFL首次提出了可微分的激光雷达NVS框架,同时重建深度、强度和光束丢失概率。然而,这些方法仅限于静态场景重建,无法处理移动车辆等动态目标。尽管UniSim支持动态场景,但它很大程度上受到需要3D目标检测的真实标签以及在进行重建前分离背景和动态目标的限制。

相比之下,作者的研究专注于仅使用激光雷达输入进行动态场景重建以及在没有彩色图像或真实标签帮助的情况下进行新颖时空视图合成。值得注意的是,NFL在激光雷达的详细物理建模方面做出了重大贡献,例如光束发散和二次回波,这与作者的工作是正交的,并且可能对所有激光雷达NVS工作都有益。

动态场景重建 。大量研究致力于将神经辐射场扩展到涵盖动态场景重建。一般来说,动态NeRF可以分为两大类。一类是可变形神经辐射场,它们通过连续变形场将坐标映射到规范空间。尽管变形场和辐射场的解耦简化了优化过程,但建立准确的远距离对应关系仍然具有挑战性。另一类是时空神经场,它们将时间视为额外的维度输入,以构建4D时空表示。因此,它可以灵活地同时将外观、几何和运动建模为连续的时间变化函数。大多数先前的工作集中在室内相对较小的位移上,而在自动驾驶场景中的大型车辆移动更具挑战性。此外,作者的工作也是首次将动态神经辐射场引入到激光雷达导航视觉系统任务中。

3 Methodology

在本节中,作者从新颖LiDAR视图合成的问题描述和NeRFs的初步研究开始。接下来,将提供作者提出的LiDAR4D框架的详细描述。

问题表述 。在动态驾驶场景中,给定收集的LiDAR点云序列 ),以及相应的传感器姿态 )和时间戳 )作为输入。每个单独的LiDAR帧 包含 个3D坐标 和1D反射强度 的点。

LiDAR4D的目标是基于神经场将这个动态场景重建为连续的隐式表示。此外,给定一个新颖的传感器姿态 和任意时刻 ,LiDAR4D执行神经渲染,以在新的时空视图中合成具有强度的LiDAR点云

NeRF的初步研究 。神经辐射场(简称NeRF)接受5D输入,包括位置 和观察方向 ,并建立到体积密度 和颜色 的映射。之后,它执行体积渲染以估计像素值并在未知的新的视图中合成图像。

具体来说,它从传感器中心 沿方向 发射一条光线 ,_即_, ,然后沿着这条光线整合 个样本的神经场输出以近似像素颜色 。体积渲染函数可以形成如下:

其中 表示累积透射率, 表示密度, 指的是样本之间的距离。

LiDAR4D Overview

作者的提出的LiDAR4D方法遵循神经辐射场,将点云场景重建为一种隐式的连续表示。与原始针对RGB图像使用光度损失函数的NeRF不同,作者基于LiDAR重新定义了神经场,称之为神经LiDAR场。

如图2所示,它专注于对LiDAR点云的几何深度、反射强度和射线丢弃概率进行建模。对于大规模动态驾驶场景,LiDAR4D结合了粗糙分辨率的平面特征与高分辨率的哈希网格表示,以实现高效有效的重建。然后,作者将其提升到4D,并引入时间信息编码以进行新颖的时空视图合成。为确保几何感知和时间一致的结果,作者还结合了从点云中得到的显式几何约束。最终,作者预测每条射线的丢弃概率,并使用运行时优化的U-Net进行全局细化,以提高生成真实性。

4D Hybrid Planar-Grid Representation

图3展示了作者提出的新颖混合表示如何将4D空间分解为平面和哈希网格特征,这些特征进一步细分为静态和动态特征。与小型室内物体的重建不同,大规模自动驾驶场景对特征的表现能力和分辨率提出了更高的要求。然而,像TiNeuVox这样的密集网格表示在大型场景中由于立方增长的复杂性而无法扩展。因此,作者遵循K-planes并将场景空间分解为多个正交平面特征组合,以大幅减少参数数量。平面特征可以如下获得:

其中 存储具有 空间分辨率、 时间分辨率和 通道的特征。 指的是将4D坐标投影到相应的平面(_xy, xz, yz, xt, yt, zt_)并进行双线性插值的采样函数。静态(_xy, xz, yz_)和动态(_xt, yt, zt_)特征分别通过哈达玛积相乘,多尺度特征以从粗到细的方式连接。

尽管如此,对于几百米范围的场景,这种分辨率的提高仍然不足,特别是对于高频强度重建。由于Instant-NGP [28]中提出的哈希网格,可以构建具有超高分辨率的显式网格结构。此外,激光雷达点云场景的稀疏性在很大程度上避免了哈希冲突的负面影响。







请到「今天看啥」查看全文