专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

FreeSim:突破自动驾驶相机仿真局限!应对数据稀缺,实现超3米偏离下高质量离轨视图合成 !

智驾实验室  · 公众号  ·  · 2025-03-04 09:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

作者提出FreeSim,这是一种用于自动驾驶的相机仿真方法。FreeSim强调生成超出记录自车轨迹之外的高质量渲染图像。在这些视角中,以往的方法因缺少这些视角的数据而出现不可接受的质量下降。

为了应对这种数据稀缺性,作者首先提出了一种生成增强模型,并采用了匹配数据构建策略。

该模型能够生成与记录轨迹略有偏离视角的高质量图像,条件是基于这些视角的降质渲染结果。

接着,作者提出了一个逐步重建策略,该策略逐步将未记录视角的生成图像加入到重建过程中,从稍微偏离轨迹的视角开始,逐步扩展到更远的距离。

通过这一逐步生成-重建Pipeline,FreeSim能够在超过3米的巨大偏离下支持高质量的离轨视图合成。

1. Introduction

真实的仿真被广泛认为是具身智能和自动驾驶的基础组件之一。随着3D高斯斑点图(3DGS)[11]的发展,驾驶场景中的相机仿真得到了迅速的进步。许多利用3DGS的研究工作已经实现了高效的重建和高质量的渲染。然而,大多数工作仅仅专注于沿记录轨迹进行重建和渲染,限制了它们在未记录的脱离轨迹视角(例如,图1中向右偏移3米的视角)上的泛化能力。然而,一个实际的仿真系统必须能够超越记录的轨迹,支持自动驾驶汽车在执行各种动作决策时可能采取的不同轨迹上的高保真且一致的渲染。

在离轨视角中保持真实感和一致性具有挑战性,核心难题在于缺乏这些视角的真实数据。最近,一些方法[7, 15, 17, 26, 44]利用生成模型从稀疏的多视角输入中合成新的视图。然而,这些方法无法直接满足作者在记录轨迹之外生成数据的目标,因为它们依赖大量的多视角训练样本。而在自动驾驶数据集中,数据仅限于单一向前行驶的轨迹,此类样本是不可用的。

为了解决这个问题,作者提出了一种生成重建混合方法,并结合了一种数据构建策略,以支持生成模型的训练。为了说明作者的动机,假设作者从记录的视角中重建了一个辐射场。如果视角偏差较小,可能会导致稍微降质的渲染结果。从其稍微降质的版本恢复高质量图像要比从类似“侧移前摄像头3米”的姿态变换条件下恢复容易得多。通过这种方式,作者将新的视图生成任务重新表述为一个更容易的生成图像增强任务。

随后,作者面临两个挑战:

(1) 如何在没有GT数据的情况下训练生成图像增强模型来处理离轨视角;

(2) 如何将小视角偏差扩展到更大的视角变换。

由于作者仍然缺乏离轨的真实 Ground Truth,作者转向退化在轨图像来模拟离轨视角的渲染模式,从而创建生成模型的训练配对数据。具体而言,作者首先提出了一种高效的分段高斯重建策略,即将整个轨迹分割成小子段。从这些子段中可以获取到多个小尺度分段高斯场。然后,在每个子段的未见未来帧中进行外推渲染。这种外推视图的渲染可以模拟与离轨渲染相似的退化渲染模式。进一步地,在渲染过程中向这些分段高斯场中的高斯原始体添加特定设计的噪声,以提高数据的多样性和规模。借助这些策略,作者构建了一个包含150万个样本的大规模数据集,支持增强模型的训练。

在解决了小视角偏差问题后,作者将这种能力扩展至更大的视角变化。为此,作者设计了一种逐步、生成-重建交替的方法,在重建过程中逐步加入离轨视图,从轻微视角偏差到显著视角偏差。在这个过程中,生成模型根据新增离轨视观点的实时渲染生成高质量图像。生成的图像用于更新训练图像集。此设计避免了直接从严重退化图像中生成图像,从而确保重建过程能够平滑地扩展,从沿轨视角逐渐过渡到远离的离轨视角。

作者的贡献总结如下。

  1. 为了解决自由视角摄像头模拟中的数据稀缺问题,作者将具有姿态条件的视图生成任务重新表述为图像增强生成任务,并提出了一种匹配的数据构造Pipeline用于模型训练。
  2. 作者提出了一种渐进式重建策略,以无缝地结合生成和重建部分,在大视角变化下避免严重的图像退化。
  3. FreeSim 在自由视角渲染中显著优于现有的基于重建的方法,更进一步地接近了一个真实且实用的模拟器。

2. Related Work

基于重建的驾驶场景相机模拟。神经辐射场(NeRF)[19] 和三维高斯点绘制(3DGS)[11] 是最流行的重建方法。3DGS 利用显式的三维高斯表示和基于栅格化渲染的方法,从而实现更快的渲染和训练。两种方法都可以在给定一些不同相机视角拍摄的部分三维场景图像的情况下,生成高质量的、逼真的新颖视角合成(NVS)。后来针对NeRF的以及针对3DGS的的工作将这两种方法扩展到驾驶场景。然而,在驾驶场景中,所有图像都是沿着记录的轨迹捕捉的。由于缺少对这些偏离轨迹视角的监督,这些方法无法从轨迹之外的视角生成高保真度的图像。

驾驶场景中的离轨迹视图合成。基于扩散的生成方法已经在2D图像和视频生成中展现了显著的成功。受这些技术的启发,一些街道场景重建方法[27, 38, 40]使用扩散模型来合成离轨迹视图,解决了未记录轨迹中缺失视图的挑战。例如,SGD[38]通过基于目标视图的参考图像和深度图来进行扩散过程以生成新型视图。然而,它主要受限于只能合成伴随旋转变化的相机视图,并且在处理大范围的空间平移方面可能遇到困难。FreeVS[27]利用目标视图的伪图像作为扩散模型的先验信息。但是,这种伪图像是从LiDAR点云中获得的,这限制了模型生成LiDAR无法到达区域的能力。除了扩散模型之外,UniSim[34]采用了基于GAN的[8]监督以增强离轨迹视图的逼真度。然而,与最新的扩散模型相比,GAN在很大程度上偏离的视角下限制了逼真度。AutoSplat[12]利用3D车辆形状模板的对称性先验作为约束条件,在视点偏移后提升质量。

3. Method

FreeSim 提出的方法是一种生成-重构混合方法,如图2所示。作者分别从生成和重构的角度简要介绍了其整体框架。

生成部分。如第1节所述,作者将姿态条件下的视图生成任务转化为一种生成图像增强任务。这种表述避免了直接使用多视角外参变换作为条件,这在单次驾驶轨迹中不可用。

重建部分。如果渲染效果严重退化且视角变化较大,生成模型可能难以生成高质量的结果。因此,作者提出了一种渐进式重建策略,该策略逐步将生成的视角添加到训练图像集中进行重建,从那些最接近记录轨迹的角度开始,逐渐向更远的角度推进。

3.1. Training Data Construction for Generation

在作者的任务中数据稀缺。近期,扩散模型已经在生成多视角图像方面取得了显著进展。然而,这些多视角生成模型与作者任务的范式之间存在本质区别。这些多视角生成模型是在类似Objaverse [6]、RealEstate10k [42]、CO3D [22]、DL3DV [14] 和 MVImgNet [37] 等NVS数据集中,使用多视角样本进行训练的。相反,在作者的任务中,由于车辆无法沿多个轨迹同时行驶,超出记录轨迹的真实图像也是不可用的。这种数据稀缺性正是作者面临的核心挑战,同时也是作者提出的方法的核心动机。

作者需要什么样的训练数据?为了应对数据稀缺的挑战,作者没有直接训练模型从姿态变换生成离轨视图,而是将视图生成任务转化为图像增强任务。具体来说,给定一个从记录视图重建的辐射场,作者可以获得在略微偏离视角下的降质渲染图(例如,水平偏移半米)。尽管降质图像质量可能较低,但它们作为先验信息有助于生成高质量图像。这种表述方式使作者能够基于记录视图创建训练对(低质量与高质量图像对),从而避免了无法获取离轨GT的要求。作者将在下文中介绍如何创建这些训练对。

3.1.1. Preparing Degraded Renderings

为了获得适当的降级渲染结果,作者需要解决两个问题。

(1) 如何高效地重建大量场景以获取足够的数据。

(2) 如何缩小记录视角(用于训练)的降级模式与未记录视角(用于推理)之间的差距。对于第一个问题,作者提出了分段高斯重建方法。而对于第二个问题,作者采用了一种外推渲染和高斯扰动技术。

分段高斯重建。作者将Waymo开放数据集(WOD)[24]重构为退化渲染图像。然而,作为驾驶场景中最大的数据集之一,它包含了1150个块级场景。完全重构整个数据集代价高昂。为了提高效率,作者将完整的轨迹分解为若干个小子段,并为每个子段构建小型的分段高斯场,如图3所示。由于规模较小,分段高斯场需要较少的高斯基元且快速收敛。作者提出了一些技术手段来匹配分段高斯场的小规模并使重构过程更经济。

具体包括:

(1) 将原始图像尺寸缩小一半;

(2) 采用1000次迭代周期并使用更为激进的学习率;

(3) 高斯基元的最大数量设置为100万。由于作者在此的目标是获得退化渲染图像,不需要高质量的重建结果,因此可以安全地采用这些技术手段。作者选用PVG[4]作为初步的驾驶重建方法,因为它简单易用。

得益于基于高斯的PVG方法和作者的技术手段,作者在不到2分钟内即可完成每个子段的重构。使用8块GPU对WOD进行整体重构大约需要40小时,相比全段重构,速度提高了约6倍。

除了效率之外,分段高斯重构还能更好地模拟退化模式,具体如下所示。

源自外推渲染的退化模式。传统的NVIS方法以插值方式采样测试视图。而作者不同,对于每个子段,作者保留片段中的最后几帧作为测试视图,这是一种外推方式。作者采用这种设计是因为作者的目标视图,即离轨视图,本质上也是外推视图。如果作者以侧视摄像头为例,这一设计会更具直观性。侧视摄像头沿前进轨迹移动几乎等同于前方摄像头在运动模式上的横向偏移。

从高斯扰动中退化的模式。为了增加数据多样性,作者通过向分段高斯场中的高斯原语添加噪声来进一步生成降级渲染。视角偏移后的一种非常典型的退化模式是图4中所示的“目标鬼影”。这种模式是由那些深度不准确的高斯原语引起的,在视角偏移后,这些高斯原语被栅格化到错误的图像位置。为了模拟鬼影,作者在场景中随机选取一小部分高斯原语,并沿着水平方向(即图像空间中的宽度方向)随机移动相同的距离。因此,在栅格化后,受扰动的高斯原语会产生鬼影效应。此外,高斯原语相对于相机的姿态旋转也会在视角偏移后发生变化。因此,作者进一步对高斯原语在其标准坐标系中的旋转添加少量噪声,以更好地模拟退化渲染。

图像融合。潜在的问题是,作者的策略生成的渲染结果可能会过度降级,导致训练好的模型无法处理轻微的降级情况。为此,作者采用了图像融合策略,表示为 ,该策略将降级图像 和 ground-truth 图像 进行融合。请注意,这一过程是在训练过程中进行的,而不是在数据构建时。

辅助稀疏激光雷达条件。除了退化图像外,作者还选地引入了FreeVS [27] 中提出的激光雷达条件。具体地,三维点云被投影到图像平面,从而得到一个伪图像。需要注意的是,通过与记录图像进行校准,可以为点云分配颜色信息。

稀疏激光雷达输入在作者的设置中充当了良好的辅助输入,提供了更准确的几何信息,特别是在那些靠近且深度较小(即视差较大)的区域。此外,通过对激光雷达条件的限制,如覆盖不足和稀疏性,作者可以利用密集渲染条件有效解决这些问题。

3.1.2. Summary of Constructed Training Data

最终,作者获得了训练样本,形式如下:

在式(1)中, 是通过外推渲染或高斯扰动创建的降级图像。 是激光雷达条件。 是对应的记录 ground-truth 图像。

对于每张记录的图像,作者使用不同的退化类型或噪声参数创建多个训练配对。总共收集了大约1.5万个训练配对。

3.2.StructureofGenerativeModel

作者采用流行的Stable Diffusion (SD) v1.5 [23]作为基础模型。为了利用降质渲染图和LiDAR投影的条件信号,作者在SD 1.5主干中分别整合了两个ControlNets [39],用于图像条件 和LiDAR条件 。来自两个ControlNet的结果特征相加并融合到去噪UNet的每个分辨率 Level 的模块中。训练损失 可以表示为







请到「今天看啥」查看全文