一句话总结:SPAR3D是一种快速的单幅图像3D重建器,具有中间点云生成功能,允许用户进行交互式编辑,并实现了一流的性能。
0. 论文信息
标题:SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
作者:Zixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani
机构:Stability AI、UIUC
原文链接:https://arxiv.org/abs/2501.04689
代码链接:https://spar3d.github.io/
1. 导读
我们研究单幅图像的三维物体重建问题。最近的工作分为两个方向:基于回归的建模和生成建模。回归方法可以有效地推断出可见表面,但却难以处理遮挡区域。生成式方法通过对分布进行建模来更好地处理不确定区域,但是计算量很大,并且生成的区域通常与可见表面不对齐。在本文中,我们提出了SPAR3D,这是一种新颖的两阶段方法,旨在充分利用两个方向的优势。SPAR3D的第一阶段使用轻量级的点扩散模型生成稀疏的3D点云,采样速度很快。第二阶段使用采样点云和输入图像来创建高度详细的网格。我们的两阶段设计能够对不适定的单图像3D任务进行概率建模,同时保持高计算效率和高输出保真度。使用点云作为中间表示进一步允许交互式用户编辑。在不同数据集上进行的评估表明,SPAR3D的性能优于之前最先进的方法,推理速度为0.7秒。
2. 效果展示
我们介绍了SPAR3D,这是一种最先进的3D重建器,可以从单视图图像重建高质量的3D网格。SPAR3D具有0.7秒的快速重建速度,并支持交互式用户编辑。
我们在视觉上将SPAR3D与其他最先进的方法进行比较。SPAR3D不仅可以更好地与图像中的可见表面对齐,还可以为遮挡表面生成更高质量的几何图形和纹理。
3. 引言
从单目图像重建三维物体是计算机视觉中的一个基本问题。一个高效的重建系统能够开拓广泛的应用领域,包括增强现实、电影制作和制造业。单目三维重建也是一个复杂的逆问题:虽然可见表面可以通过阴影估计出来,但预测被遮挡的表面则需要一个强大的三维物体先验知识。我们的研究领域已经朝着两个不同的方向发展:前馈回归和基于扩散的生成。尽管这两个方向都取得了显著进展,但各自都存在根本性的局限。
基于回归的模型在贴合图像中的可见表面方面非常有效,且推理速度通常很快。然而,它们做出了图像与三维之间双射映射的过于简化的假设。这一假设给学习目标带来了歧义,导致被遮挡区域的表面和纹理估计不佳。另一方面,基于扩散的方法具有生成性,并不预测统计均值。但是,当对高分辨率三维进行建模时,它们在推理时间的迭代采样计算效率低下。此外,先前的研究表明,基于扩散生成的三维模型与输入图像中可见表面的对齐效果更差。
我们如何能够兼取二者之长,同时避免它们的局限?
鉴于此,我们提出了SPAR3D,它将三维重建过程分解为两个阶段:点采样阶段和网格化阶段。点采样阶段使用扩散模型生成稀疏点云,随后是网格化阶段,将点云转换为高度详细的网格。我们的主要思想是将不确定性建模卸载到点采样阶段,其中点云的低分辨率允许快速迭代采样。随后的网格化阶段利用局部图像特征将点云转换为高保真度的详细网格。利用点云减少网格化的不确定性进一步促进了逆渲染的无监督学习,这减少了纹理中的固有光照。我们的两阶段设计使SPAR3D在显著优于先前的回归方法的同时,保持了高计算效率和对输入观测的保真度。
推荐课程:
为什么说colmap仍然是三维重建的核心?
我们方法的一个关键设计选择是使用点云来连接两个阶段。为了确保快速重建,我们的中间表示需要轻量级,以便能够高效生成。然而,它应该为网格化阶段提供足够的指导。这促使我们使用点云,这可能是计算效率最高的三维表示,因为所有信息位都用于表示表面。此外,通常被视为点云缺点的缺乏连通性,在我们的两阶段编辑方法中现在变成了一个优势。当背面不符合用户期望时,可以在低分辨率点云上进行局部编辑,而无需担心拓扑结构。将编辑后的点云输入网格化阶段,可以生成更符合用户需求的网格。
我们的实验证明了SPAR3D相对于先前最先进方法的优越性,在各种数据源上取得了坚实的定量和定性结果。SPAR3D还展现出对野外图像和AI生成图像的强大泛化能力。总推理时间低于0.7秒,SPAR3D不仅高效,而且允许用户轻松编辑,为单目三维重建任务提供了一个实用的解决方案。我们希望这是朝着可扩展生成高质量三维资产迈出的有意义的一步。
4. 方法
给定输入图像 I,我们的方法能够生成具有物理基材质(Physically Based Rendering, PBR)的3D网格,包括反照率(albedo)、金属度(metallic)、粗糙度(roughness)和表面法线(surface normals)。
我们的主要目标是开发一种模型,该模型能够享受通过扩散模型进行分布学习的优势,同时不会受到输出保真度低和计算效率低下的困扰。为此,我们设计了一个两阶段模型,该模型包括点采样阶段和网格化阶段(见图2)。在点采样阶段,一个点扩散模型学习在给定输入图像条件下点云的条件分布。由于点云的分辨率较低,这一阶段在计算上是高效的。基于回归的网格化阶段将采样的点云转换为与可见表面对齐的高精度网格。点采样带来的不确定性降低进一步促进了在网格化阶段以无监督方式学习材质和光照,这减少了烘焙光照造成的伪影,并实现了对镜面表面的更好建模。最后,通过使用稀疏点云作为中间表示,SPAR3D能够在循环中实现人工编辑。
5. 实验结果
6. 总结 & 未来工作
我们提出了SPAR3D,这是一种简单而有效的单视图3D重建方法。我们模型的核心是基于点采样的两阶段设计。我们首先通过点扩散生成稀疏点云,然后结合点云和图像重建高精度网格。这种设计使我们能够充分利用基于回归和生成建模的优势。在标准基准测试和实景图像上的评估表明,SPAR3D以快速的推理速度显著优于以往最先进的方法。我们将在论文发表时发布我们的模型,并希望我们的工作对未来研究实现高质量3D内容的可扩展生成有所帮助。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球