ReconDreamer：通过在线恢复构建驾驶场景重建的世界模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-26 01:20

正文

24年11月来自极佳科技、北大、理想汽车和中科院自动化所的论文“ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration”。

ReconDreamer，通过逐步整合世界模型知识来增强驾驶场景重建。具体来说，DriveRestorer 通过在线恢复来减轻伪影。该功能通过渐进式数据更新策略加以补充，旨在确保更复杂机动的高质量渲染。ReconDreamer 是一种能够在大规模机动中有效渲染的方法。实验结果表明，ReconDreamer 在 NTA-IoU、NTL-IoU 和 FID 方面的表现优于 Street Gaussians，相对提升幅度分别为 24.87%、6.72% 和 29.97%。此外，ReconDreamer 在大型机动渲染过程中凭借 PVG 超越 DriveDreamer4D，NTA-IoU 指标相对提升 195.87%。

如图所示：动态驾驶场景重建方法，例如 DriveDreamer4D[68] 和 Street Gaussians[58]，在渲染较大机动（例如多车道变换）时遇到巨大的挑战。相比之下，提出的 ReconDreamer 通过逐步整合世界模型知识显著提高渲染质量。

开环仿真技术在自动驾驶领域取得重大进展[22, 23, 26]。然而，当前的开环评估方法无法对端到端规划算法提供准确的评估，因此需要更为稳健的评估框架 [32, 34, 67]。解决该问题的一个有前途的方法是使用在现实场景中进行的闭环评估，这需要从新的轨迹视图中检索传感器数据。这要求驾驶场景表示能够重建驾驶环境的复杂和动态性质。

闭环模拟主要依赖于场景重建方法，如神经辐射场 (NeRF) [15, 39, 59, 61] 和 3D 高斯splatting (3DGS) [9, 24, 28, 58]。尽管这些技术有贡献，但它们从根本上受到训练数据密度和多样性的限制，通常将其渲染能力限制在与原始训练数据紧密相似的场景中。因此，它们在复杂、高变化的驾驶操作中表现不佳。自动驾驶世界模型的最新发展[13, 21, 49, 51, 52, 69]已经引入生成与特定驾驶命令一致的不同视频能力，为更强大的闭环模拟提供新的潜力。最近的 DriveDreamer4D [68] 进一步证明，利用预训练的世界模型作为数据机器可以显著提高动态驾驶场景重建的质量。然而，虽然这种无需训练的世界模型知识整合是有效的，但其当前设计在执行更大的机动（例如多车道变换）时仍然遇到挑战。

驾驶场景重建方法

NeRF和3DGS已经成为场景重建中突出的技术。 NeRF 模型 [2、3、39、40] 使用多层感知器 (MLP) 网络来表示连续体场景，实现卓越的渲染质量。最近，3DGS[28,64]提出一种新方法，通过在三维空间中定义各向异性高斯并采用自适应密度控制，即使是稀疏点云数据也可以实现高质量的渲染。各种研究已经采用 NeRF[10、15、25、37、43、47、59、61] 和 3DGS[8、9、24、35、58、65、70] 来进行驾驶场景重建。为了适应驾驶环境的动态特性，一些方法将时间作为附加参数来捕捉动态场景中的时间变化[1,11,24,33,36,42,45]，而另一些方法将场景视为移动目标重叠在静态背景上[30, 41, 48, 54, 56, 61]。尽管取得这些进展，NeRF 和基于 3DGS 的方法仍然面临与数据密度相关的挑战。它们在渲染方面的有效性在很大程度上取决于传感器轨迹与训练分布的紧密结合。为了应对这些挑战，SGD[65]、GGS[17]和MagicDrive3D[12]等方法利用生成模型来扩大训练视角的多样性。

世界模型

世界模型根据参与者提出的想象动作序列来预测未来可能的世界状态[31，71]。基于世界模型，最近的方法[4、5、14、16、18-20、29、38、50、51、55、57、63、66]由自由-文本动作引导下生成视频。引领这一发展的是 Sora [6]，它采用尖端的生成方法来创建遵循控制环境物理定律的复杂视觉序列。此功能不仅可以增强生成的视频的保真度，而且在现实驾驶场景中也具有巨大的应用潜力。在自动驾驶中，世界模型 [13, 21, 49, 52, 60, 69] 利用预测技术来解释驾驶环境。这些方法从视频数据中提取驾驶策略的同时生成真实的驾驶场景，为更强大的闭环模拟提供潜力。最近 DriveDreamer4D [68] 进一步证明，利用预训练的世界模型作为数据机器可以改善动态驾驶场景重建。

传统的场景重建方法[8, 24, 28, 39, 53, 58, 62]，由于训练数据的稀疏性而面临挑战。最近的方法[17, 65, 68]通过利用生成先验来增加数据密度，从而缓解这个问题。然而，生成的数据和真实数据之间仍然存在差距。相比之下，提出的 ReconDreamer 通过在线恢复过程扩展训练数据。值得注意的是，ReconDreamer 逐步恢复渲染的数据，有效地缩小生成数据和原始数据之间的差距。 ReconDreamer的整体框架如图所示。

具体来说，首先使用原始数据 V_ori 训练场景重建方法 G。经过训练的方法，随后会渲染出新轨迹视频ˆV_novel。值得注意的是，ˆV_novel 由于数据稀疏而出现鬼影。因此，引入DriveRestorer来修复鬼影。恢复过程类似于扩散去噪过程[69]，其中采用结构条件（3D 框和 HDMaps）来确保交通要素的时空一致性。请注意，这些条件是通过投影变换来处理的，与新轨迹 T_novel 一致。因此，恢复后的渲染图 V_novel 与原始视频 V_ori 的差距更小，更适合作为场景重建的训练样本。此外，为了进一步增强 G 的训练并使其能够渲染大机动（例如多车道变换），提出 PDUS，它逐步更新场景重建的训练数据集。具体来说，新轨迹会逐渐扩展以生成大机动视频。然后，这些视频由 DriveRestorer 恢复并用于更新训练数据集。然后使用更新的数据集来优化重建模型。这个迭代过程持续直到重建模型收敛。

传统的场景重建方法在渲染新颖的轨迹视图时常常会出现伪影。为了解决这个问题，引入 DriveRestorer 来恢复这些退化的渲染。

训练。训练 DriveRestorer 的主要挑战在于缺乏渲染恢复数据集。因此提出一种构建恢复对的新方法。如图所示，利用训练不足的重建模型 [8, 24, 58, 62] 沿原始轨迹渲染视频 ˆV_ori = G (T_ori)，由于模型欠拟合，自然产生伪影。然后将这些退化的帧与其对应的真实视频 V_ori 配对，形成渲染恢复数据集。为了进一步增强数据集的多样性，从不同的训练阶段对渲染的视频进行采样。重建模型渲染的帧通常在天空和背景的边界以及图像中心远离相机的区域表现出明显的退化。为了解决这些问题，引入一种掩码策略，对这些退化区域应用随机掩码来指导模型修复它们。

构建的渲染恢复对表示为{^V^k_ori, V_ori}，其中^V^k_ori表示在训练阶段 k 采样的退化视频帧。如图提供这些数据对的可视化效果。基于构建的数据集，训练 DriveRestorer 来恢复渲染视频中的伪影。 DriveRestorer 根据世界模型 [69] 进行微调。具体来说，引入退化视频帧 Vˆori 作为控制条件来提供外观先验。为了进一步强调挑战性区域的恢复，在训练期间对退化的视频帧^V_ori 应用掩码。由于视频质量在远处区域（距离相机中心较远）和天空场景边界处下降，掩码 M 主要关注这些问题区域。在 DriveRestorer 的训练过程中，首先将被掩码的视频帧 ^V_mask = ^V_ori ⊙ M 输入编码器 E 以获得低维潜特征 z = E(^V_mask )。利用扩散损失优化世界模型的微调过程。最后，视频、3D 框和 HDMaps 的集成与 [69] 类似。

ReconDreamer：通过在线恢复构建驾驶场景重建的世界模型

正文

请到「今天看啥」查看全文