0. 论文信息
标题:DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
作者:Qijian Tian, Xin Tan, Yuan Xie, Lizhuang Ma
机构:Shanghai Jiao Tong University、East China Normal University
原文链接:https://arxiv.org/abs/2409.12753
代码链接:https://github.com/fangzhou2000/DrivingForward
1. 导读
我们提出了DrivingForward,一个前馈高斯Splatting模型,它从灵活的环绕视图输入中重建驾驶场景。来自车载摄像机的驾驶场景图像通常是稀疏的,具有有限的重叠,并且车辆的运动使得摄像机外部图像的获取更加复杂。为了应对这些挑战并实现实时重建,我们联合训练姿态网络、深度网络和高斯网络来预测代表驾驶场景的高斯图元。姿态网络和深度网络以自我监督的方式确定高斯图元的位置,而不使用训练期间的深度地面真实和相机外部信息。高斯网络从每个输入图像独立预测图元参数,包括协方差、不透明度和球谐系数。在推理阶段,我们的模型可以从灵活的多帧环绕视图输入实现前馈重建。在nuScenes数据集上的实验表明,我们的模型在重建方面优于现有的最先进的前馈和场景优化重建方法。
2. 引言
三维场景重建对于理解驾驶场景至关重要。现代自动驾驶辅助车辆通常配备多个摄像头来捕捉周围环境。利用稀疏的车载摄像头实时重建驾驶场景有助于自动驾驶中的各种下游任务,包括在线地图绘制、鸟瞰图(BEV)感知和三维检测。然而,下游任务所需的实时计算能力和稀疏的周围视角对驾驶场景重建构成了挑战。
神经辐射场(NeRF)和三维高斯溅射(3DGS)显著推动了三维场景重建技术的发展。DrivingGaussian、StreetGaussian和AutoSplat进一步探索了驾驶场景的重建。虽然这些方法在新视角合成方面表现出强大的能力,但它们是针对场景优化的方法,需要数十张图像和昂贵的计算时间来重建一个场景。这些离线重建方法不适合自动驾驶中的实时下游任务,从而限制了它们的实用性。
我们的目标是实现基于稀疏周围视角的在线、可泛化的驾驶场景重建。已有一些尝试,如pixelSplat和MVSplat,探索了可泛化的重建方法。它们在训练期间从大规模数据集中学习强大的先验,并通过前向推理实现从稀疏输入视角的快速三维重建。然而,这些方法在驾驶场景中难以应用。由于车载摄像头的数量有限(通常为6个摄像头),相邻视角的重叠度极低(低至10%)。而这些现有方法通常需要密集重叠(通常超过60%)的输入图像。此外,在驾驶场景中获取不同时间步长下每个视角的相机外参成本高昂。这些方法在训练期间依赖于此类数据,限制了它们的实际应用性。最近,基于NeRF的工作DistillNeRF试图为驾驶场景开发一种可泛化的三维表示。然而,其性能欠佳,且依赖于激光雷达来训练大量的NeRF模型进行蒸馏,这计算成本极高。此外,以前的前向方法通常具有固定的输入视角模式,要么使用立体图像(例如MVSplat、pixelSplat),要么使用周围视角的单帧图像(例如Distill NeRF)。然而,随着车辆前行并逐帧捕捉环视图像,我们旨在支持灵活的多帧输入进行重建,例如从当前帧的周围视角预测下一帧的视角,或从两个间隔帧合成中间帧的周围视角。
推荐课程:
面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
。
综上所述,驾驶场景的在线和可泛化重建面临包括实时处理、具有最小重叠度的稀疏周围视角以及可变数量的输入帧在内的挑战。
为此,我们引入了DrivingForward,这是一种新型的前向高斯溅射模型,能够从灵活的稀疏环视图像中实时重建驾驶场景。我们训练了一个可泛化的模型,并通过前向推理实现实时重建。在驾驶场景中,稀疏摄像头之间的最小重叠限制了直接使用多视角的几何关系。因此,我们分别从每个输入图像中预测高斯基元,并将它们聚合起来以表示三维驾驶场景。然而,由于尺度模糊原理(Charatan等,2024),从单张图像进行重建本身是不适定的,这可能导致多视角之间的尺度不一致。为了解决这个问题,受环视深度估计(Kim等,2022;Guizilini等,2022)的启发,我们提出了针对高斯基元的尺度感知定位。在训练阶段,我们将多帧环视图像输入到姿态网络和深度网络中。姿态网络预测相机姿态(即外参),而深度网络估计每张图像的密集深度图。这两个网络仅通过输入图像的光度损失进行监督,并以自监督的方式学习尺度信息,而无需真实的深度信息和相机外参。在推理阶段,深度网络分别从单帧图像中预测真实尺度的深度,确保多帧输入之间的深度估计一致。
通过将一致的深度估计进行反投影,我们得到高斯基元的位置。对于其他高斯参数,我们分别通过高斯网络从每张图像中进行预测。高斯网络与姿态网络和深度网络联合训练。它以深度网络中的深度图和图像特征为输入,输出高斯基元的协方差、不透明度和球面谐波系数。由于高斯基元是从周围视角的单帧图像中独立预测的,因此我们的方法不受固定数量输入帧的限制。这允许灵活的多帧环视输入,例如从当前帧预测下一帧的视角,或从两个间隔帧合成中间帧。
在nuScenes数据集上的大量实验表明,我们的DrivingForward在各种输入下的新视角合成方面优于其他前向方法。与具有相同输入的场景优化方法相比,它也实现了更高的重建质量。
3. 效果展示
我们的前进与最新相关作品的比较。我们用较少的计算资源实现了来自小的重叠输入的实时重建。
4. 主要贡献
我们总结我们的主要贡献如下:
• 据我们所知,DrivingForward是首个针对驾驶场景的前向高斯溅射模型。它实现了从稀疏车载摄像头的实时重建,并支持灵活的周围视角多帧输入。
• 我们引入了尺度感知定位和高斯参数预测来重建驾驶场景。尺度感知定位从周围视角中学习真实尺度的深度,而无需使用真实的深度信息和外参。然后,我们分别从每张图像中独立预测高斯参数,从而支持灵活的多帧输入。整个模型是端到端训练的。
• 综合实验表明,在驾驶场景重建方面,DrivingForward的性能优于前向方法和场景优化方法。DrivingForward在训练期间从大规模驾驶场景数据集中学习强大的先验,并在推理阶段以前向方式从稀疏车载摄像头中实现实时驾驶场景重建。
5. 方法
我们以N个稀疏摄像头图像{Ii}Ni=1作为输入,并旨在从输入视角图像中预测高斯基元。总体框架如图2所示。姿态网络P和深度网络D预测车辆运动和估计输入中的尺度感知深度。我们将每个像素分配给一个高斯基元,并通过估计的深度确定其位置。高斯基元的其他参数由高斯网络G预测。我们将所有视角的高斯基元反投影到三维空间中,以可微分的方式将它们渲染到目标视角,并联合训练整个模型以端到端方式。在推理阶段,使用深度网络和高斯网络进行前向重建。由于尺度感知定位和其他参数的预测不依赖于其他帧,我们可以在推理期间灵活地输入不同数量的环视帧。
6. 实验结果
7. 总结
我们介绍了Driving Forward,一个前馈高斯分形模型,它实现了从灵活的环绕视图输入实时驾驶场景的重建。为了解决周围视图最小重叠的问题,我们独立地预测每个图像中的高斯,并提出了感知尺度的定位,以获得高斯原语的多视图一致位置。高斯网络从每个图像中预测原语的其他参数。个体预测使周围视图的多帧输入具有灵活性。我们的方法不需要深度地面真实值,并且在训练过程中是无外部的。在推理阶段,我们的模型比其他方法更快,并且与现有的前馈和场景优化的重建方法相比,在驾驶场景中实现了更高的重建质量。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球