0. 论文信息
标题:MVBoost: Boost 3D Reconstruction with Multi-View Refinement
作者:Xiangyu Liu, Xiaomei Zhang, Zhiyuan Ma, Xiangyu Zhu, Zhen Lei
机构:Chinese Academy of Sciences、University of Chinese Academy of Sciences、The Hong Kong Polytechnic University
原文链接:https://arxiv.org/abs/2411.17772
1. 导读
3D对象重建的最新进展非常显著,然而大多数当前的3D模型严重依赖于现有的3D数据集。多样化三维数据集的缺乏导致三维重建模型的泛化能力有限。在本文中,我们提出了一种新的框架,通过生成伪GT数据来增强多视图细化的3D重建(MVBoost)。MVBoost的关键是结合多视图生成模型的高精度和三维重建模型的一致性的优点,创建可靠的数据源。具体而言,给定单视图输入图像,我们采用多视图扩散模型来生成多视图,随后采用大型3D重建模型来产生一致的3D数据。MVBoost然后自适应地细化这些从一致的3D数据渲染的多视图图像,以构建用于训练前馈3D重建模型的大规模多视图数据集。此外,输入视图优化被设计为基于用户的输入图像来优化相应的视点,从而确保最重要的视点准确地符合用户的需求。广泛的评估表明,我们的方法取得了优越的重建结果和稳健的推广相比,以前的工作。
2. 引言
从单视图图像生成3D资产是3D计算机视觉中的一项关键任务,具有广泛的应用领域,如视频游戏、虚拟现实、3D内容创作和动画。高保真3D重建模型极大地减少了创建3D数字资产所需的人力。然而,从单视图图像生成高保真3D资产,同时保持一致的表面细节,是一项挑战,特别是对于复杂物体而言。开发这些模型的核心难点在于高质量3D数据的可用性有限。创建此类数据集是一项复杂任务,通常需要专用设备、先进的捕获技术或复杂的3D建模流程。目前公开的3D资产数据集缺乏高质量的纹理,且存在大量重复性,因此不足以有效训练3D生成模型。
鉴于扩散模型在图像生成方面的广泛应用和成功,多种方法利用2D扩散模型来增强3D生成模型。DreamFusion提出了得分蒸馏采样(SDS),该方法从2D扩散中提炼3D知识,并启发了基于SDS的2D提升方法的发展。尽管基于SDS的方法可以产生高度逼真的视觉效果,但其基于优化的方法需要数小时才能生成精细的3D资产,这对于3D内容创作者来说不切实际。此外,基于SDS的方法通常存在几何形状不佳和不一致性问题,如“双面神(Janus)”问题。为了解决这些问题,已经开发出了多种前馈方法,这些方法在训练时使用真实情况的四个视图作为输入,通过稳健的3D重建网络生成3D资产。然而,这些方法在推理时依赖于多视图扩散模型,可能会产生不一致的多视图输出。在实际应用中,如果训练集中缺少当前场景的示例,则重建模型的性能会很差。为新场景收集额外数据成本高昂,使得重建的应用非常不灵活。
推荐课程:
为什么说colmap仍然是三维重建的核心?
在本工作中,我们提出了一种新的框架,用于通过单视图图像和多视图细化(MVBoost)来增强3D重建。该方法包括多视图细化策略和提升重建模型。多视图细化策略结合了多视图生成模型的高精度和3D重建模型的一致性(作为我们的数据源)的优点。其中,多视图生成模型在准确性方面表现出色,但在视图之间缺乏一致性;而3D重建模型提供了一致的多视图数据,但准确性较低。具体来说,给定单视图输入图像,多视图细化策略使用多视图扩散模型生成高精度多视图。然后,将这些多视图图像送入大型3D重建模型,以产生一致的原始3D表示。通过细化从原始3D数据渲染的多视图图像,多视图细化策略生成了一个大规模多视图数据集,用于训练前馈3D重建模型。在提升重建模型中,我们以最近提出的大型多视图高斯模型为起点,引入LoRA[11]来稳定训练过程。在实际应用中,重建3D模型与输入图像的对齐是评估重建质量的关键标准之一。因此,我们提供了一个输入视图优化过程,以优化相应的视点图像。
3. 效果展示
给定单个图像作为输入,我们的MVBoost可以生成高质量的3D资产。
4. 主要贡献
我们在GSO数据集上进行了大量实验。定性和定量结果均表明,我们提出的方法优于相关重建方法。我们的贡献如下:
• 我们提出了一种新的框架来构建伪真实值,该框架利用高精度多视图生成的优势来提高整体重建质量。
• 我们提出了一种复杂框架,旨在将不同的单视图数据集整合到3D重建训练中。该框架还基于用户提供的输入图像进行了进一步优化,显著提升了重建结果。
• 结果验证了我们的方法可以重建高保真3D图像,并实现了新的最优结果。
5. 方法
我们的网络MVBoost的总体框架如图2所示。我们首先概述了扩散模型和3D生成背后的方法和过程。接下来,我们介绍了多视图细化策略,该策略解决了扩散模型生成视图之间不一致的问题。我们描述了提升重建模型,该模型利用精炼的2D多视图数据集实现高保真3D重建,而不依赖于任何3D数据集。最后,我们解释了如何优化3D高斯溅射与相应输入视点的对齐,以改进3D表示。
6. 实验结果
关于2D图像质量的定量实验结果如表1所示。在本研究中,我们的方法(TriplaneGaussian)、LGM使用3D高斯溅射法生成3D表示,而OpenLRM和VFusion3D使用神经辐射场(NeRF),InstantMesh和CRM则使用网格作为其3D表示。我们渲染了3D高斯溅射法、NeRF和网格输出的相应环绕视图,并与真实值(Ground Truth)进行比较,以评估各项指标。我们的方法在各种2D新视角合成质量指标上均达到了最先进的性能。
关于3D几何质量的定量实验结果如表2所示。在本研究中,我们的方法(TriplaneGaussian)、LGM根据LGM建立的网格提取框架,将3D高斯溅射法转换为网格。同样地,OpenLRM和VFusion3D根据其官方实现,将其NeRF表示导出为网格。随后,所有方法都进行了统一缩放,以便在实验中使用相同的网格尺度。尽管我们选择3D高斯溅射法作为我们的3D表示,但在所有几何质量指标上,我们仍然达到了最先进的性能。
7. 总结
本文设计了一种新颖的框架MVBoost,以增强3D重建。MVBoost结合了多视角生成模型的高精度和3D重建模型的一致性这两个优点,以生成伪真实值作为数据源。通过合成数据训练了一个前馈3D重建模型,该模型在3D资产重建方面表现出卓越的性能。随后,通过一种后处理方法——输入视图优化,根据输入图像进一步优化相应的视角,确保最重要的视角能够精确满足用户的需求。在基准任务上的广泛评估表明,MVBoost在3D重建方面达到了最先进的性能。我们的方法为3D重建提供了一种新的流程,我们期望能为3D重建领域的发展做出贡献。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括: