0. 论文信息
标题:Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving
作者:Xin Fei, Wenzhao Zheng, Yueqi Duan, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Jiwen Lu
机构:Tsinghua University、University of California, Berkeley
原文链接:https://arxiv.org/abs/2412.06777
代码链接:https://github.com/Barrybarry-Smith/Driv3R
1. 导读
动态场景的实时4D重建仍然是自动驾驶感知的一个关键挑战。大多数现有方法依赖于通过自我监督或多模态传感器融合的深度估计。在本文中,我们提出了Driv3R,一个基于DUSt3R的框架,直接从多视图图像序列中回归每帧点图。为了实现流式密集重建,我们维护一个内存池来推理传感器之间的空间关系和动态时间上下文,以增强多视图3D一致性和时间集成。此外,我们使用4D流预测器来识别场景中的移动对象,以指导我们的网络更多地关注于重建这些动态区域。最后,我们以一种无优化的方式将所有每帧点贴图一致地对齐到世界坐标系。我们在大规模nuScenes数据集上进行了大量实验,以评估我们方法的有效性。Driv3R在4D动态场景重建方面优于以前的框架,与需要全局对齐的方法相比,推理速度快15倍。
2. 引言
实时且精确地对动态场景进行稠密重建,是自动驾驶和机器人感知领域的一项挑战性任务。相较于来自多模态传感器(如相机、激光雷达和雷达)的数据融合,仅依赖多视角相机提供了一种计算更高效且成本更低的解决方案。然而,在没有三维真实值监督和动态对象精确表示的情况下实现准确深度估计,给这项任务带来了巨大挑战。
为解决这些挑战,已提出多种高效的三维表示方法,以实现从多视角相机进行场景重建并执行下游任务,如新视角合成、深度估计和姿态预测。Mildenhall等人将多视角图像输入编码为隐式神经辐射场(NeRF)以进行三维表示,随后有工作改进了NeRF模型的效率、性能和泛化能力。最近,基于光栅化的渲染器证明,显式三维高斯表示在实现更优性能和显著提升效率方面具有优势。
同时,为使原始NeRF和三维高斯表示能够更准确地建模复杂的动态对象和场景,一些工作已探索融入诸如对象跟踪、光流和运动编码等策略,以进一步扩展三维表示,从而支持动态四维重建。
尽管在高效三维表示方面取得了进展,但对于重建而言,精确且稠密的点云仍然至关重要,特别是在自动驾驶领域。在这方面,DUSt3R开创了仅从输入图像对中学习强大三维先验的先河,直接回归像素对齐的点云表示和置信图。此外,MonST3R通过在适当数据集上进行策略性微调,将DUSt3R表示扩展至动态场景建模。然而,MonST3R仍依赖于DUSt3R中计算成本高昂的全局对齐过程,且难以高效建模自动驾驶中的动态大规模场景。为消除DUSt3R提出的对齐需求,Spann3R引入了一个空间记忆池来更新由ViT编码的特征,从而在一致的坐标系内实现增量三维重建过程。然而,这种空间记忆池仅能在静态场景中推理空间关系,无法有效处理时间信息融合,从而限制了其在自动驾驶场景中重建动态和大规模场景的能力。
推荐课程:
Transformer如何在自动驾驶领域一统江湖!
为此,我们提出一个Driv3R模型,以在全球世界坐标系中无需全局对齐优化的情况下重建大规模动态自动驾驶场景。具体而言,我们维护一个记忆池,以在多视角序列中推理时间关系和空间上下文。此外,为从输入图像中准确捕获动态对象,我们采用轻量级RAFT模型,随后在四维流预测器中进行分割细化。在利用流预测器生成移动对象掩码后,我们采用预训练R3D3模型的点云预测作为监督,引导我们的模型更加关注这些动态区域,以实现准确的四维重建。此外,通过确保时空记忆池中不同视角之间的信息交互实现多视角三维一致性,我们可以以无优化的方式将每帧点图对齐到世界坐标系,最终重建完整的大规模四维动态自动驾驶场景。我们在大规模nuScenes数据集上进行了深度估计和场景重建的广泛实验,其中Driv3R取得了与最先进的多视角深度估计框架相当的结果。此外,在动态大规模场景的四维重建方面,我们的方法相比依赖于全局对齐优化的方法,推理速度提高了15倍,优于所有现有方法。
3. 效果展示
我们的Driv3R从多视图图像中以流的方式预测全球世界坐标系中密集的4D动态点云。它在重建动态自动驾驶场景方面优于现有方法,与需要全局对齐优化的方法相比,推理速度快15倍
4. 方法
与Spann3R相比,我们的架构有效地处理空间和时间信息的存储、管理和交互。具体而言,我们为每个传感器维护一个单独的记忆池,每个键值对都根据其对应的时间戳进行标记。在记忆池更新期间,基于与新记忆键的余弦相似性,将新键添加到相关传感器池中,从而允许我们在使用记忆池更新由ViT生成的特征时,识别出与当前帧具有最密切空间和时间关系的键值对。仅对相关键值对执行交叉注意,我们有效减少了不必要的计算开销,并最大限度地减少了来自不相关帧的干扰。
6. 实验结果
深度估计。表1显示,在nuScenes数据集上,我们的Driv3R方法相较于多视图深度估计框架和直接回归每帧点图的方法,均取得了具有竞争力的结果。值得注意的是,图4中的可视化结果表明,Spann3R中引入的空间记忆池无法充分捕捉输入序列中的时间关系,从而在快速移动动态对象的重建区域中产生了显著的模糊现象。此外,虽然MonST3R在某些场景下能够实现更精细的深度估计,但其全局对齐过程计算成本高昂,并且对动态掩码的准确性高度敏感。相比之下,Driv3R结合了Spann3R在静态重建方面的优势和R3D3在动态对象深度估计方面的优势,因此在4D动态重建方面更加高效且鲁棒。
动态对象与场景重建。为了突出Driv3R在准确重建动态场景方面的能力,我们从nuScenes验证集中采样了3508个输入序列,这些序列包含由4D流预测器识别出的更多动态对象。如表2所示,在NuScenes动态子集上,Driv3R在重建和深度估计方面均优于所有先前的方法。值得注意的是,与需要全局对齐与流优化的MonST3R相比,我们的模型在动态场景重建方面甚至取得了略好的结果,同时无需优化即可实现更高效的推理。可视化结果进一步表明,Spann3R预测的快速移动对象的点云常常存在不完整、模糊和不准确的问题。相比之下,由于与记忆池的时间交互以及来自4D流预测器的动态掩码的指导,我们的Driv3R能够更准确地重建快速移动对象的动态区域。此外,如图5所示,无需优化的多视图对齐器生成的4D全局点云保持了强大的3D一致性,因为来自不同视角的编码特征可以在记忆池内共享空间信息。由于Driv3R生成的点图在边缘处仍存在浮点物,因此我们仅保留置信度较高的区域,并通过无需优化的多视图对齐器将其对齐到全局坐标系中进行可视化。
7. 总结 & 未来工作
我们提出了Driv3R,用于学习自动驾驶动态场景的密集4D重建。我们的核心创新在于一个记忆池,它能够推断序列间的时间关系和不同视角间的空间上下文。我们还使用4D流预测器来识别移动对象,引导网络关注动态区域。借助无需优化的多视图对齐器,Driv3R在全局坐标系中生成一致的4D点图。在大型NuScenes数据集上,Driv3R在深度估计和场景重建方面优于现有方法,且推理速度比依赖全局对齐的方法高出15倍。
局限性。尽管Driv3R能够高效地重建大规模动态场景,但其输入长度受到内存的限制。在训练过程中,对于来自6个多视图相机的5帧序列,它大约需要10GB的内存,这主要是由于记忆池存储的需求。此外,使用稀疏激光雷达点作为动态对象的监督并未产生最佳结果,且R3D3预训练模型的点预测在某些情况下可能不准确。未来的工作可以专注于改进内存存储和适应完全自监督的训练。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球