专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

AAAI 25开源 | 无惧稀疏视角!清华新作Sparis:室内场景神经隐式曲面重建

计算机视觉工坊  · 公众号  ·  · 2025-01-27 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Sparis: Neural Implicit Surface Reconstruction of Indoor Scenes from Sparse Views

作者:Yulun Wu, Han Huang, Wenyuan Zhang, Chao Deng, Ge Gao, Ming Gu, Yu-Shen Liu

机构:Tsinghua University

原文链接:https://arxiv.org/abs/2501.01196

1. 导读

近年来,从多视点图像重建室内场景几何已经取得了令人鼓舞的成就。当前的方法将单目先验结合到神经隐式表面模型中,以实现高质量的重建。然而,这些方法需要数百幅图像来进行场景重建。当只有有限数量的视图可用作输入时,单目先验的性能由于尺度模糊而恶化,导致重建的场景几何的崩溃。本文提出了一种新的基于稀疏视图的室内表面重建方法Sparis。具体而言,我们研究了单目先验对稀疏场景重建的影响,引入了一种基于图像间匹配信息的新先验。我们的先验提供了更准确的深度信息,同时确保了跨视图匹配的一致性。此外,我们采用了角度滤波策略和极线匹配权重函数,旨在减少由于视图匹配不准确而导致的误差,从而细化图像间先验以提高重建精度。在广泛使用的基准上进行的实验证明了稀疏视图场景重建的优越性能。

2. 效果展示

从室内场景的稀疏视图中得到的表面重建结果。我们的方法Sparis优于解决的挑战,如缺失的重建细节(NeuRIS),不平的表面,空间噪声(VolRecon)。

使用稀疏视图对ScanNet上的3D重建结果进行视觉比较。整体顶视图和标记区域的放大视图显示,我们的方法产生了更完整和精细的几何结构。

3. 主要贡献

我们提出了一种名为Sparis的新型表面重建方法该方法利用图像之间的对应信息来进行室内稀疏视图重建。我们的方法利用像素对信息进行深度优化,并利用重投影损失来改进表面。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

我们开发匹配优化策略,旨在最大限度地减少匹配不准确的影响,确保更可靠的深度和再现对齐。

我们对现实世界和同理数据集的广泛评估表明Sparis比当前领先的稀疏视图室内重建方法具有更高的性能。

4. 方法

图2:Sparis的概述。给定稀疏的室内图像,通过2个阶段的过程实现3D表面的重建:(1)预处理:使用预训练的正常预测网络fe和特征匹配网络f0分别估计正常图和匹配像素对:2)基于先验的训练:使用图像间深度先验、交叉视图重投影和单目正常先验优化神经渲染过程,生成完整和详细的几何形状。

5. 实验结果

6. 总结

我们提出了一种新颖的神经网络隐式表面重建方法用于从稀疏视图中重建3D室内场景。我们的方法利用图像之间的匹配信息,并利用三角测量提供比单目深度更准确的深度信息,从而提高重建过程的稳定性。此外,我们设计了一种基于像素对像素匹配关系的投影损失,以确保视图之间的连贯性。为了进一步提高准确性,我们设计了一个角度滤波器和一个极线权重函数。这有助于去除可能损害最终结果的错误潜在匹配。大量实验表明,我们的方法优于所有现有的室内重建方法。在只有有限数量的视图可用的情况下,我们在真实和合成数据集上都实现了令人满意的重建结果。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文