Driv3R：学习自动驾驶的密集 4D 重建

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-24 00:04

正文

24年12月来自清华和伯克利分校的论文“Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving”。

动态场景的实时 4D 重建仍然是自动驾驶感知的关键挑战。大多数现有方法依赖于通过自监督或多模态传感器融合进行深度估计。Driv3R，是一个基于 DUSt3R 的框架，可直接从多视图图像序列中回归每帧点图。为了实现流式密集重建，维护一个内存池来推理跨传感器的空间关系和动态时间上下文，以增强多视图 3D 一致性和时间整合。此外，用 4D 流预测器来识别场景中的移动目标，以使网络更加专注于重建这些动态区域。最后，以无优化的方式将所有每帧点图一致地与世界坐标系对齐。对大型 nuScenes 数据集进行广泛的实验，评估该方法的有效性。Driv3R 优于先前 4D 动态场景重建框架，与需要全局对齐的方法相比，实现 15 倍的推理速度。

如图所示，Driv3R 以流方式从多视图图像中预测全局世界坐标系中的密集 4D 动态点云。

自动驾驶的深度估计。由于大规模自动驾驶数据集中缺乏密集的真值深度，先前的研究要么采用自监督方法进行深度估计 [3、17、33、35、45、50、53–55]，要么结合其他监督信号，如激光雷达 [13、27]、光流 [50、56] 和目标运动 [5、33]，以提高预测准确性。在这些方法中，R3D3 [35] 通过在几何估计之间进行迭代来利用来自多视角摄像机的时间和空间信息，并进一步细化单眼深度，从而实现动态场景中准确、高效的密集深度预测。因此，采用预训练 R3D3 模型的深度预测作为 Driv3R 模型中移动目标的监督。

静态 3D 重建。随着基于学习方法的兴起，目标和场景的静态 3D 重建取得长足的进步。这些方法旨在从训练数据中学习网格 [16, 25, 32, 42]、点云 [19, 29, 41, 43]、体素 [10, 36, 40]、隐式神经场 [7, 22, 31, 48, 51] 或显式表示 [6, 9, 14, 26, 37]。DUSt3R [43] 迈出开创性的一步，利用从大规模训练数据中学习的强 3D 先验，直接从任意输入图像对中回归点图。然而，DUSt3R 需要计算成本昂贵的全局对齐，以将点图和相机姿势优化到一致的坐标系中。为了解决这个问题，Spann3R [41] 维护一个空间内存池，可以从输入序列在一致的坐标系中增量式地进行 3D 重建，从而无需进行对齐优化。然而，这些方法在重建动态场景方面表现不佳，而动态场景对于自动驾驶感知至关重要。

光流。识别动态目标对于准确重建 4D 场景至关重要。光流可以估计图像序列中每个像素的运动，在检测 2D 图像中的运动物体方面起着关键作用。以前，光流的估计被视为能量最小化过程 [21] 或离散优化问题 [8, 49]，而最近的研究倾向于采用端到端可微分神经网络来提高效率和准确性 [2, 20, 23, 24, 38]。轻量级 RAFT [38] 模型构建多尺度 4D 相关体并使用循环网络更新流场，在光流预测中表现出色，推理效率高。因此，采用 RAFT 作为 4d 流预测器的核心组件。

动态 4D 重建。自从 NeRF [31] 推出以来，后续研究人员扩展其隐式神经场表示，以实现 4D 动态场景中的新视图合成 [15, 39, 39]。最近，3D 高斯已被探索作为场景重建的有效显式表示 [26]。因此，一些工作集中于利用高斯表示对动态场景中的运动和变形进行编码，以实现实时渲染 [47] 和基于单目视频的新视图合成 [28, 30]。此外，GFlow [44] 和 DreamScene4D [11] 无需相机参数即可从单目视频中重建动态场景，从而增强野外场景的场景恢复和目标跟踪。此外，MonST3R [52] 提出直接估计每帧每个时间戳的几何形状，成功地调整 DUSt3R [43] 表示以重建动态场景。然而，MonST3R 仍然依赖于 DUSt3R 计算成本高昂的全局对齐优化，并且难以在一致的坐标系中有效地表示整个场景。

如图所示Driv3R 概述。给定多视图输入序列，构建一个传感器级记忆池，用于时间和空间信息交互。在获得每帧点图后，4D 流预测器识别场景中的动态目标。最后，采用无优化的多视图对齐策略来预测世界坐标系中的 4D 全局点云。

问题定义

给定来自 RGB 相机的多视图图像 I/t = {I/t, c}，每个时间戳 t ∈ T 具有相应的相机姿势 {T/t,c, K/t,c}，Driv3R 旨在学习全局世界坐标系中的 4D 密集像素点云表示 {P/t | t ∈ T}。

Driv3R 由三个阶段组成，允许端到端训练。首先，受 Spann3R [41] 启发，构建一个用于空间和时间信息交互的记忆池。然后，引入一个 4d 流预测器来识别场景中的动态目标，引导网络在训练期间更多地关注重建这些区域。最后，使用多视图对齐器以无优化的方式将所有点图校准到一致的世界坐标系中。利用预训练 R3D3 [35] 模型的深度推理作为监督，Driv3R 能够实现一致的 4D 密集点云重建，并对动态场景中的运动目标进行精确建模。

时空记忆池

Spann3R [41] 将多视角图像作为输入，并管理外部空间内存以在一致的坐标系中预测每个图像的点图。受此启发，维护一个时空记忆池来推理多视角输入序列中的时间关系和空间上下文。具体来说，给定来自不同传感器的帧和输入序列中的时间戳，表示为 I/t,c 和 I/t′ ,c′ ，ViT [12] 首先将两幅图像编码为特征图 f/t,c 、f/t′,c′ 。然后，通过从时空记忆池中提取记忆来更新 f/t,c 如下，这使得编码的特征 f/t,c 能够与以前时间戳和视点获得的信息充分交互。

随后，通过两个互连的解码器对特征对 (f^∗/t,c, f/t′,c′) 进行解码。目标解码器解码的特征用于生成下一步的查询，而参考解码器解码的特征，则应用于每帧点图和置信度图的记忆编码和回归如下：

与 Spann3R [41] 相比，本文架构可以高效地处理空间和时间信息的存储、管理和交互。具体来说，为每个传感器维护一个单独的记忆池，每个K-V对都用其对应的时间戳tokens。在池更新期间，新K会根据与现有内存K的余弦相似度添加到相关传感器池中，这样就可以在使用记忆池更新从 ViT 生成的特征时，识别哪些K-V对与当前帧具有最接近的空间和时间关系（如图所示）。通过仅对相关的K-V对执行交叉注意，有效地减少不必要的计算开销，并最大限度地减少不相关帧的干扰。

4D 流预测器

为了增强 Driv3R 模型重建输入场景中动态目标的能力，设计一个基于 RAFT [38] 模型的 4D 流预测器。给定来自单个传感器的图像序列 {I/1, I/2, ..., I/T} 和获得的相应点图 {P/1, P/2, ..., P/T}，首先生成一组包含时间相邻帧对 {(I/i1, I/i2)}。然后，用预训练的 RAFT 模型来预测每个图像对的流 {(F^i/12, F^i/21)}。为了进一步捕捉目标的 4D 运动，对点图应用交叉投影获得由传感器运动引起的流图。因此，通过简单地对所有帧对中的相应掩码进行平均，得出每个帧的粗动态掩码{Ω'/1，Ω'/2，...，Ω'/T}。

接下来，结合预训练的 SAM2 [34] 模型进行分割，进一步细化粗动态掩码。为了说明这一点，对于在帧 t 的每个掩码，首先将 Ω'/t 二值化，并将每个连接的掩码区域连同原始图像一起输入 SAM2，使用分割输出增强二值粗掩码。这有助于填补初始掩码的缺失部分，从而确保全面覆盖动态目标。最后，获得动态目标的细化掩码 {Ω'/1，Ω'/2，...，Ω'/T}。4D 流预测器的整体过程可以表述为：

其中 PoseEstimate(·) 表示根据给定点图估计相机外部和内部参数，如 DUSt3R [43] 中所述。 S(·) 和 B(·) 分别代表 SAM2 的增强和二值操作。

多视图对齐器

在从多视图输入序列中回归每帧点云预测后，来自多个传感器的点图（表示为 {P/t,c, t ∈ T, c = 1,2,...,C}）最初在各自的坐标系中表示。因此，使用多视图对齐器以无优化的方式将这些点图对齐到全局世界坐标系中。具体而言，首先在其输入序列的各自坐标系内对每帧进行姿势估计，获得相机参数，这样能够将预测的点图投影到每帧深度图中。因此，可以使用真值相机参数将每个深度图投影到全局世界坐标系中的点。由于所有每帧点图都是从记忆池中完全捕获时间和空间信息的特征中解码出来，因此这种简单的姿势变换可以确保点云在时间和空间上的一致性。最后，从现实世界坐标系中的多传感器输入中获得每帧密集点图{P/t | t∈T}，无需任何额外的对齐：

Driv3R：学习自动驾驶的密集 4D 重建

正文

请到「今天看啥」查看全文