0. 论文信息
标题:SCube: Instant Large-Scale Scene Reconstruction using VoxSplats
作者:Xuanchi Ren, Yifan Lu, Hanxue Liang, Zhangjie Wu, Huan Ling, Mike Chen, Sanja Fidler, Francis Williams, Jiahui Huang
机构:NVIDIA、University of Toronto、Vector Institute、Shanghai Jiao Tong University、University of Cambridge、National University of Singapore
原文链接:https://arxiv.org/abs/2410.20030
代码链接:https://github.com/nv-tlabs/SCube
官方主页:https://research.nvidia.com/labs/toronto-ai/scube/
1. 导读
我们提出了SCube,这是一种从稀疏的设定图像集中重建大规模3D场景(几何、外观和语义)的新方法。我们的方法使用一种新的表示体素平面对重建的场景进行编码,体素平面是一组在高分辨率稀疏体素支架上支持的3D高斯分布。为了从图像中重建体素平面,我们采用以输入图像为条件的分层体素潜在扩散模型,随后是前馈外观预测模型。扩散模型以由粗到细的方式逐步生成高分辨率网格,外观网络预测每个体素内的一组高斯分布。从少至3个非重叠的输入图像,SCube可以在20秒内生成数百万个具有跨越数百米的1024^3体素网格的高斯图像。过去处理从图像重建场景的工作要么依赖于每个场景的优化,并且不能从输入视图重建场景(因此需要密集的视图覆盖作为输入),要么利用基于低分辨率模型的几何先验,这产生了模糊的结果。相比之下,SCube利用高分辨率稀疏网络,从少数视图中产生清晰的输出。我们使用Waymo自动驾驶数据集在3D重建上展示了SCube相对于现有技术的优势,并展示了其应用,如激光雷达模拟和文本到场景生成。
2. 引言
从图像中恢复三维几何形状和外观是计算机视觉和图形学领域的一个基础问题,数十年来一直备受研究。该任务位于许多实际应用的核心,涵盖机器人技术、自动驾驶和增强现实等多个领域,仅列举其中几个。早期解决这一问题的算法利用立体匹配和运动恢复结构(SfM)从图像数据中恢复三维信号。最近,从神经辐射场(NeRFs)开始的一系列工作,通过将一个体积场拟合到一组图像上来增强传统的SfM流程,这些图像可以从新的视角进行渲染。NeRFs通过编码密集的几何形状和视角相关的光照效果,增强了传统的重建流程。虽然辐射场方法在从图像中恢复三维信息的能力上取得了巨大进步,但它们需要针对每个场景进行耗时的优化方案。此外,由于每个场景都是独立恢复的,辐射场没有利用数据先验,也无法对输入视角以外的重建进行外推。因此,辐射场方法需要密集的视图覆盖才能生成高质量的三维重建。
另一项近期的工作将深度学习应用于从图像中预测三维信息。这些方法要么对辐射场优化问题的初始化进行元学习,要么直接使用前馈网络从图像中直接预测三维信息。虽然基于学习的方法可以从稀疏视角生成重建结果,但它们仅成功应用于低分辨率的单个物体。此外,这些方法通常存在三维不一致性问题(例如多层表面或双面人问题)。为了解决从图像中进行一般三维重建的问题,我们需要能够(1)将重建推广到一般场景,而不仅仅是单个物体,(2)在存在密集视图的情况下产生准确且高质量的重建,同时利用数据先验在稀疏视图条件下产生合理的重建,以及(3)在大规模和高分辨率输入上快速高效地运行(就运行时间和内存而言)。这些要求在实践中很难满足,因为高质量的真实三维数据对于场景而言并不广泛可用,针对大规模和多样化输入的深度学习三维表示在文献中尚未得到充分探索,并且需要开发与新三维表示相对应的可扩展且易于训练的模型设计。
尽管如此,我们注意到其中一些问题已经得到单独解决:高斯溅射(Gaussian Splatting)能够实现快速、可微分的渲染和高质量的重建(但尚未与数据先验一起使用),而稀疏体素层次结构已成功用于构建具有语义和颜色等属性的大规模三维场景的生成模型,并且已在部分数据(如自动驾驶车辆捕获的激光雷达扫描)上进行训练。
3. 效果展示
给定具有很少或没有重叠的稀疏输入图像,我们的模型重建用体素图表示的高分辨率和大规模的3D场景,准备用于新的视图合成或激光雷达模拟。
数据处理管道。我们将COLMAP密集重建点添加到累积的激光雷达点,并使用动态对象的边界框对其进行补偿。这为我们提供了一个更完整的几何图形进行训练。
4. 主要贡献
我们引入了SCube,这是一种从图像中进行大规模三维场景重建的前馈方法。我们的方法将三维场景编码为高斯溅射(可实现快速渲染)与稀疏体素层次结构(可实现具有语义的大规模三维场景的高效生成建模)的混合体。我们将这种混合表示称为VoxSplats,并使用一个包含两个步骤的前馈过程从图像中预测VoxSplat:(1)一个生成几何网络,它根据输入图像预测稀疏体素层次结构,以及(2)一个外观网络,它预测体素内的高斯属性以及一个天空盒纹理来表示背景。网络使用了专为三维数据设计的高效稀疏卷积,使我们能够在20秒内从图像中重建整个场景。我们在Waymo开放数据集上评估了我们的性能,针对从低重叠稀疏图像中重建场景这一具有挑战性的任务。我们证明,SCube在该任务上显著优于现有方法。此外,我们还展示了SCube能够支持下游应用,如激光雷达模拟和文本到场景的生成。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
5. 方法
SCube包含两个阶段:(1)我们使用基于XCube的条件潜在扩散模型,根据输入图像重建带有语义逻辑回归的稀疏体素网格。(2)我们使用前馈网络预测表示为VoxSplats和天空全景的场景外观。我们的方法能够快速且准确地合成新颖视角,以及支持许多其他应用。
6. 实验结果
新颖的视图合成。我们展示了SCube+与基线方法相比的综合新视图。每个子图的插图显示了重建场景几何图形的自上而下的可视化(一个极端的新视图)。
7. 总结 & 限制性
结论。在本文中,我们介绍了SCube,这是一种从图像中重建大型3D场景的前馈方法。给定稀疏视角且不重叠的图像,我们的方法能够在单次前向传递中于几十秒内预测出由体素支撑的高斯溅射(VoxSplat)和轻量级天空全景图组成的高分辨率3D场景表示。我们已在Waymo开放数据集上验证了该方法的有效性,并表明该方法在重建质量方面优于最先进的方法。
局限性。我们的方法确实存在一些局限性。首先,当前方法无法处理复杂场景,例如在极端照明或天气条件下的动态场景。其次,遮挡区域的外观质量仍存在不确定性。第三,该方法本身仍需要地面真实(ground-truth)3D训练数据,但通用室外场景并不总是具备这些数据。在未来的工作中,我们计划通过结合更先进的神经渲染技术以及探索生成训练数据的有效方法来解决这些局限性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球