彻底测试自主系统对于追求安全自动驾驶车辆至关重要。这需要创建超越从现实世界数据中安全收集范围的安全关键场景,因为许多这类场景在公共道路上出现频率很低。
然而,大多数现有NVS方法的评估依赖于从训练数据中偶尔抽取图像帧,使用指标比较渲染图像与真实图像。不幸的是,这种评估协议无法满足闭环仿真中的实际需求。
具体来说,真实应用需要能够渲染超出原始轨迹的新颖视图(如跨车道视图),这在现实世界中很难捕捉到。
为了解决这个问题,本文提出了一个专门为自动驾驶仿真设计的全新驾驶视图合成数据集和基准。这个数据集的独特之处在于,它包含了偏离训练轨迹1到4米拍摄的测试图像。
它包括六个序列,涵盖了各种时间和天气条件。每个序列包含450张训练图像,120张测试图像,以及相应的相机姿态和内在参数。
利用这个新颖的数据集,作者建立了第一个现实基准,用于评估在仅前视和多相机设置下的现有NVS方法。
实验发现强调了当前方法中存在的显著差距,揭示了它们在满足跨车道或闭环仿真苛刻前提下的不足能力。
作者的数据集在项目页面公开发布:https://3d-aigc.github.io/XLD/。
1 Introduction
自动驾驶(AD)模拟是连接现实世界与虚拟世界的桥梁,对于车载自动驾驶软件的测试与发展至关重要[7]。研究表明,采用有效的模拟方法可以大大加快自动驾驶安全测试的评估速度,比实际测试快大约
到
倍[20]。这一有力证据强调了利用模拟提高自动驾驶开发效率和效果的重要性。然而,自动驾驶行业主要采用两种方法进行系统测试:日志重放,即基于预先记录的实车传感器数据进行测试;以及实车驾驶,即通过实际行驶来收集更多用于测试的数据[58]。
在闭环模拟中,车辆能够在模拟环境中自由响应控制命令,而不是仅限于严格遵循日志中原有的轨迹。为了配合最近发展的端到端自动驾驶[61;23],设计用于AD模拟的神经模拟器,能够为闭环模拟和算法训练提供新颖视角下的逼真图像,是非常需要的。主要的科学问题归结于3D重建[33]和新颖视角合成(NVS),这也是计算机视觉和计算机图形学中长期存在的问题。如[40;41]的传统方法长期以来在3D场景重建的主要部署中占主导地位。然而,这些重建的场景不能直接用于生成逼真的新颖视角,从而对传感器模拟造成了很大限制。因此,工业界通过参数化和程序化建模技术[47]或人工参与创作来弥补模拟与现实的差距。随着最近3D隐式场的快速发展,例如神经辐射场(NeRF [35])和显式基元表示,即3D高斯溅射(3DGS [25]),从图像集合中重建场景成为了端到端自动驾驶模拟的基础[22]。这些技术使得能够在新颖视角下渲染高质量和逼真的图像。
目前,大多数方法通过将数据集分为训练集和测试集来评估新颖视角合成(NVS)结果的表现。然而,这种分割和采样的策略导致了一个插值基准,作者认为这对于评估训练后的模型是否能够为闭环模拟有效渲染就绪(即,跨车道)和高保真数据是不够的。相反,作者提出的DBN数据集是一个全新的基准,用于在跨车道视图中评估合成质量,并额外捕获了GT图像。作者的数据集和基准专注于
专门评估跨车道场景中摄像头的新颖视角合成能力
。主要目标是评估摄像头在涉及多车道的场景中生成准确和逼真的新颖视图的表现。具体来说,作者引入了XLD数据集,每个场景包含了
的渲染图像生成。此外,作者通过从训练轨迹偏差
m、
m和
m渲染
张图像来评估跨车道新颖视角合成。使用XLD数据集,作者对基于NeRF或3DGS的领先方法进行了基准测试,并使用已建立的NVS指标。作者的基准测试结果表明,作者提出的数据集提供了一个专门针对闭环模拟要求的全面评估基准。此外,作者的基准测试结果揭示了有趣的发现,强调了所提出数据集的价值。
2 Related Work
二维图像分割有着悠久的历史,文献中提出了众多的算法。传统方法主要包括基于边缘的检测[1],基于区域的方法[2],以及基于图的方法[3]。随着深度学习的发展,卷积神经网络(CNNs)在图像分割任务中展现了卓越的性能。《全卷积网络》[4]首次尝试将CNNs应用于语义分割,取得了具有竞争力的结果。随后,基于FCN的一系列方法被提出,如U-Net[5],SegNet[6],和DeepLab[7]。这些方法在准确性和效率上都取得了巨大进步。最近,注意力机制和基于 Transformer 的模型也被引入到图像分割领域,进一步推动了分割性能的边界。
Autonomous Driving Simulation
在过去的几年里,自主驾驶模拟器的使用急剧增加[29]。这些模拟器在验证规划和控制机制、生成教育和评估数据集以及显著减少执行这些功能所需时间方面发挥着重要作用。当前的形势主要由两种类型的模拟工具主导:基于模型和数据驱动。基于模型的模拟平台,如PyBullet[18]、MuJoCo[46]、AirSim[42]和CARLA[19],利用先进的计算机图形学来复制车辆及其周围环境。然而,构建这些模型以及编程车辆动力学所需的手动工作量可能相当大且耗时。此外,视觉输出有时可能无法达到必要的逼真度,这可能会在感知系统实际运行时对其有效性产生不利影响。
在此之前,NVS主要依赖传统的图像处理技术。例如,Chaurasia等人[12]提出从过度分割的图结构中合成深度,而AADS[28]使用过滤和完成的密集深度图通过图像拼接来扭曲新视图图像。数据驱动的模拟平台VISTA[3; 2]利用现实世界的数据集来创建全面标注的超逼真模拟。近年来,采用NeRF方法来表面模拟驾驶视角的创新浪潮不断。这些新方法在创建超逼真图像方面表现出色,并且在自主驾驶模拟领域已经证明超越了传统的视图合成算法。神经新颖视图合成的最新进展极大地加速了下一代驾驶模拟的快速发展,与传统的相比,它们表现出更高的表现力和灵活性。作者的数据集和基准工作专门为这些方法而设计。
NeRF-based NVS for Driving Simulation
神经辐射场(NeRF)的引入通过在多层感知机(MLP)架构中结合基于坐标的表示,彻底改变了NVS,从而显著提高了性能。基于NeRF,后续的许多工作进一步调整这些算法以满足诸如高效训练、抗锯齿渲染、大规模重建等要求。InstantNGP [36] 提出使用多分辨率哈希网格与浅层MLP网络来消除大型MLP网络。mip-NeRF [4; 5] 使用抗锯齿的圆锥截头体代替光线以减少令人反感的锯齿伪影,这使得NeRF能够表示精细的细节。zip-NeRF [6] 借鉴了来自渲染和信号处理的思想,将mip-NeRF与InstantNGP结合。Nerfacto [45] 集成了现有方法的许多优点,为NeRF训练提供了一个全能解决方案。Block-NeRF [44] 通过划分处理大规模城市场景的重建。为了处理动态情况,NSG [38] 将动态场景分解为场景图,并学习一种结构化表示。SUDS [48] 将大型场景分解为三个哈希表数据结构,编码静态、动态和远场辐射场。MARS [54] 是一个基于NeRF的实例感知和模块化模拟器,它分别对动态前景实例和静态背景环境进行建模。UniSim [58] 将记录的日志转换为一个真实的闭环多传感器模拟,它结合了动态目标先验,并利用卷积网络处理和完成看不见的区域。EmerNeRF [57] 采用自我引导的方法同时捕捉场景几何、外观、运动和语义,通过将场景分层为静态和动态场,使得这些元素的全面和同步建模成为可能。UC-NeRF [16] 通过基于层的颜色校正和虚拟扭曲技术,解决了不完全校准的多视图新视图合成的挑战。
3DGS-based NVS for Driving Simulation
受基于NeRF的方法和点基可微渲染的启发,3D高斯 splatting(3DGS)[25]以其在显式表示和实时渲染能力方面的领先优势,开启了一个新时代。在短时间内,大量方法[14; 56]涌现出来,通过利用3DGS表示重点研究道路场景重建和NVS(新视图合成)。例如,PVG引入了基于周期性振动的时态动态来重建动态城市场景。
StreetGaussian[56]将动态城市街道环境建模为带有语义逻辑和3D高斯的点云集合,每个点云与前景车辆或背景相关联。DrivingGaussian[62]使用递增的静态3D高斯来表示场景的静态背景。它还利用复合动态高斯图来处理具有激光雷达数据的多个移动目标。
提出了一种混合方法,将辐射场与3DGS表示相结合,有效地消除了在城市场景NVS中对点初始化的要求。
提出了一种专门为在无边界大规模场景中进行在线密集映射设计的混合高斯表示。GaussianPro[15]利用从重建场景几何中得到的先验和 Patch 匹配技术生成精确的高斯分布,利用场景现有的结构。DC-Gaussian[50]引入了自适应图像分解来建模反射和遮挡。它结合了光照感知的遮挡建模来处理在城市场景新视图合成中变化光照条件下的反射和遮挡。
作者的数据集和基准专门关注评估神经基础驾驶模拟在NVS中的性能,尤其是在跨车道场景中的表现。其中一部分提到的方法作为作者的 Baseline ,考虑到代码的可用性。
此外,可泛化的3D-GS方法如PixelSplat[11],Mvsplat[13]和GGRt[26]也试图在预训练好的泛化前馈高斯网络内合成新图像。
Datasets in Autonomous Driving
在自动驾驶训练和基准测试中,已有许多可用的数据集,例如KITTI、KITTI-360 、vKITTI 、CityScapes [17]、Mapillary 、ApolloScape 、Waymo Open Dataset 、nuScenes [9]、Argoverse [10]和Argoverse 2 [51]、BDD100K 、OpenLane-V2 等。这些先前的工作为自动驾驶算法的研究和发展奠定了基础。关于与自动驾驶相关的数据集的全面调查可参见[34]。然而,据作者所知,现有研究中还没有特别针对为自动驾驶模拟量身定制的全新视角合成技术的评估,尤其是在满足跨车道能力的高要求方面。
3 Dataset
与之前的数据集(包括现实世界和合成的)只捕捉道路上的单一轨迹相比,作者的数据集还捕捉了与主轨迹平行的几条轨迹,以更好地评估新颖视角的渲染质量。为了在创建的世界中生成跨车道数据,作者使用了Carla,这是一个基于Unreal Engine构建的自动驾驶模拟器平台。
Sensor Setup
为了满足大多数NeRF和3D-GS算法的需求,用于捕获数据的传感器包括三个彩色相机(即“左前”、“前”、“右前”)和一个3D激光扫描仪。传感器与车辆之间的空间关系如图2所示是固定的。
所有三个RGB相机具有相同的内在和镜头参数。具体来说,它们具有
像素的分辨率,
的视场(FOV),ISO 100的感光度以及5ms的快门速度。3D激光扫描仪具有64个激光束,60米的扫描范围,以及从
到
垂直方向的激光束角度。
Data Generation
图1:作者的数据集包括六个不同的场景,每个场景都涉及车辆沿着道路轨迹行驶。为了生成相机和激光雷达传感器的训练数据,作者在每条轨迹上均匀采样150个航点。轨迹用红色突出显示。
作者的仿真环境包括六个场景("Town01"、"Town02"、"Town03"、"Town04"、"Town05"和"Town10",均采用[19]提供的CC-BY许可)以及各种天气条件,如晴朗和雨天,与真实世界设置非常相似。所有场景和轨迹的概览展示在图1中。以一个场景为例,训练集对三个相机的图像、激光雷达点云和车辆的外部信息采样150次。两个样本之间的车辆前进距离大约是2米。测试集包括由'前'相机捕获的四组图像。这些图像与训练集对齐,每组在车辆坐标的y轴上展现出0m、1m、2m和4m的逐步偏差,如图2所示。此外,一些用于AD(自动驾驶)方法的新的视角合成技术,如GaussianPro [15],MARS [54],和UC-NeRF [16],需要标注天空 Mask 以将场景分割为前景-天空,并分别建模颜色补偿。作者使用预训练的SegFormer [55]有效地推理语义分割 Mask ,并从中提取天空 Mask 。
4 Benchmark
Benchmarking Environment
为了彻底评估评估方法的性能和计算效率,作者使用了一块NVIDIA Tesla V100 16GB GPU进行了一系列实验。作者的方法在五个包含驾驶场景的不同数据集上进行了广泛验证。作者通过定性和定量的评估展示了作者的发现,这些发现强调了与其他方法相比,作者的方法在性能和效率上的优越性。
Benchmarking Methods
InstantNGP [36]:
作者采用了Adam优化器,并保持了与原始Instant-NGP实现相似的参数设置:每个条目的特征维度为
,层级数为
,哈希表大小为
,学习率为
。作者用30,000步来训练模型。
Nerfacto [45]:
作者使用了[45]中的实现,在测试作者的基准时没有进行姿态细化。作者采用学习率为
的Adam优化器。作者用30,000步来训练模型。
MARS [54]:
作者继承了原始MARS实现的大部分参数设置。作者采用学习率为