专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
青眼号外  ·  2025,美妆“首店潮”加速! ·  昨天  
盐财经  ·  雅诗兰黛,巨亏 ·  2 天前  
盐财经  ·  雅诗兰黛,巨亏 ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

武大最新SOTA!MGFs:建筑表面重建的全新掩蔽高斯场

3D视觉工坊  · 公众号  ·  · 2024-08-11 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!


0.这篇文章干了啥?

这篇文章介绍了一种新颖的掩码高斯场(MGFs)方法,用于从多视角图像中重建建筑表面。首先,研究人员利用EfficientSAM和COLMAP工具生成建筑区域的多层掩码和掩码点。随后,提出了基于边界射线增强和建筑内部掩码射线的掩码高斯场模型,并设计了新的边界损失函数和多层感知掩码损失函数,以提高重建的精度和细节捕捉。为了改进建筑表面网格的提取,文章还优化了四面体提取方法,结合了掩码高斯球体和多方向过滤技术。实验结果表明,与传统COLMAP方法以及其他最新的高斯基表面重建和新视图渲染方法相比,MGFs方法在精度、细节捕捉和时间效率方面均表现出明显的优势。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:MGFs: Masked Gaussian Fields for Meshing Building based on MultiView Images

作者:Tengfei Wang, Zongqian Zhan等

作者机构:School of Geodesy and Geomatics, Wuhan University,

论文链接:https://arxiv.org/pdf/2408.03060

2. 摘要

在过去的几十年里,基于图像的建筑表面重建引起了大量的研究兴趣,并被广泛应用于诸如文物保护、建筑规划等多个领域。与传统的摄影测量和基于NeRF(神经辐射场)的解决方案相比,近年来,基于高斯场的方法在生成表面网格方面展现出了显著的潜力,因为它们具有训练时间高效和细节3D信息保存完好的优势。然而,大多数基于高斯场的方法在训练时使用了所有图像像素,包括建筑和非建筑区域,这导致了建筑网格中显著的噪声并降低了时间效率。本文提出了一种新颖的框架——掩蔽高斯场(MGFs),旨在以高效的方式生成准确的建筑表面重建。该框架首先应用EfficientSAM和COLMAP生成建筑的多层级掩码及相应的掩码点云。随后,通过整合两种创新的损失函数来训练掩蔽高斯场:一种多层级感知掩码损失,专注于建筑区域的构建;另一种边界损失,旨在增强不同掩码之间边界的细节。最后,我们改进了基于掩蔽高斯球体的四面体表面网格提取方法。通过对无人机图像进行的综合实验表明,与传统方法以及几种基于NeRF和高斯的SOTA(最新最优)解决方案相比,我们的方法在建筑表面重建的准确性和效率方面都有显著提升。值得注意的是,作为附带成果,我们在建筑的视图合成方面也有额外的收益。

3. 效果展示

Dortmund 和 Zeche 示例图像

Dortmund的渲染结果。第一行和第二行展示了通过不同方法获得的两种渲染结果,第三行是对这些渲染结果的放大显示。浅绿色背景表示非建筑区域。

Zeche 的渲染结果。第一行和第二行的图像展示了通过不同方法获得的两种渲染结果,第三行是这些渲染结果的放大显示。浅绿色背景表示非建筑区域。

Dortmund 的表面重建结果。第一列的图像展示了各种方法生成的整体网格,第二列的图像展示了建筑表面网格。第三列和第四列的图像是建筑中两个局部区域的放大显示。

Zeche 的表面重建结果。第一列的图像展示了各种方法生成的整体网格,第二列的图像展示了建筑表面网格。最后三列的图像是建筑中三个局部区域的放大显示。

关于 Dortmund 表面重建的消融实验结果。第一列的图像展示了各种设置下的整体网格,第二列的图像展示了目标建筑的表面网格。第三列和第四列的图像是建筑中两个局部区域的放大视图。

不同分辨率下使用 COLMAP 和我们的 MGFs 进行表面重建的结果。第一列显示了所用的方法和图像的分辨率,第二列和第三列展示了建筑网格的详细显示,剩下的四列分别展示了网格的准确性、完整性、F1 值和时间。

4. 主要贡献

生成掩蔽高斯场 :为了区分建筑和非建筑区域,我们利用EfficientSAM和COLMAP高效生成高斯场的掩码,其中包括整个建筑区域的完整掩码和建筑子元素的多级掩码。仅使用被掩蔽为建筑的图像像素和稀疏点进行后续训练。

边界损失和多级感知掩蔽损失 :为了增强各种掩码之间边界的细节,通过基于新的加权体积渲染公式使用边界光线的预测值估算了一种新颖的边界损失。此外,使用多级感知掩蔽损失,包含所有属于检测到的多级掩码的像素,确保每个掩码内的局部一致性。

改进的网格提取方法 :为了解决网格提取缓慢和冗余的问题,我们提出了一种基于掩蔽信息的多方向筛选四面体网格提取策略。

5. 基本原理是啥?

  1. 掩码高斯场(MGFs): 这是一个用于建筑表面重建的创新方法。它结合了多视图图像中的掩码信息和高斯场模型,以提供更加准确的建筑表面重建。

  2. 多视图图像和掩码生成: 首先使用EfficientSAM和COLMAP算法从多视图图像中获取建筑区域的多级掩码和掩码点。EfficientSAM用于生成精确的掩码,而COLMAP则用于三维重建和匹配。

  3. 边界射线增强: 通过边界射线的增强和建筑内部掩码射线的处理,提高掩码高斯场的效果。边界射线用于捕捉建筑表面的边界信息,掩码射线用于处理建筑内部的细节。

  4. 新型边界损失和多级感知掩码损失: 提出了两种新的损失函数:

  • 边界损失: 通过加权体渲染的预测边界射线值计算,优化边界区域的重建。
  • 多级感知掩码损失: 考虑到所有属于多级掩码的像素,从而提高重建的全面性和准确性。
  • 四面体提取方法改进: 基于掩码高斯球和多方向过滤的方法,改进了建筑表面网格的提取过程。这种方法提高了网格的准确性和细节。

  • 这些原理和方法综合运用,以提高建筑表面重建的精度和效率,相比于传统的COLMAP流程和其他基于高斯的表面重建方法,在时间效率和细节准确性上都表现更好。

    6. 实验结果

    实验结果

    在本文的实验中,我们评估了提出的掩码高斯场(MGFs)方法在建筑表面重建中的表现,并与传统方法以及几种最新的高斯基重建和新视图渲染技术进行了比较。主要实验结果包括:

    1. 重建精度

    • 对比实验 :与传统的COLMAP流水线相比,MGFs方法在建筑表面网格的重建精度上有显著提升。MGFs生成的网格比COLMAP的结果更为详细,边界更清晰。
    • 高斯基方法对比 :与几种最先进的高斯基表面重建方法相比,MGFs方法在细节捕捉和表面平滑度上也表现更佳。我们的实验显示,MGFs在处理建筑表面复杂细节时更具优势。
  • 网格细节

    • 实验数据 :MGFs方法生成的网格不仅在细节上更为丰富,而且在表面平滑度上也优于传统方法。我们通过多视图图像的数据验证了这一点,网格的每个细节都更为准确。
  • 时间效率

    • 计算速度 :实验表明,MGFs方法在时间效率上优于传统方法和几种最新技术。我们的重建过程在计算时间上得到了有效优化,使得处理时间更短,适用于实际应用中的大规模数据处理。
  • 大规模场景处理

    • 扩展性测试 :虽然本文主要聚焦于单一建筑的重建,但实验结果也表明,MGFs方法在处理包含多个不同建筑的大型场景时表现良好。该方法在处理复杂场景时能够保持较高的精度和效率,证明了其良好的扩展性。

    总体而言,实验结果表明,掩码高斯场(MGFs)方法能够在建筑表面重建任务中提供更高的精度、更丰富的细节和更高的时间效率,相较于传统方法和当前最先进的技术具有明显优势。

    7. 总结 & 未来工作

    在这项工作中,我们提出了一种用于建筑表面重建的全新掩码高斯场(MGFs)方法,基于多视图图像。首先,使用EfficientSAM和COLMAP获取建筑区域的多级掩码和掩码点。接着,我们提出了一种基于边界射线增强和建筑内部掩码射线的掩码高斯场。此外,通过一种新的加权体渲染,我们提出了一种通过预测边界射线值计算的新型边界损失,以及多级感知掩码损失,涵盖所有属于检测到的多级掩码的像素。最后,我们改进了基于掩码高斯球和多方向过滤的四面体提取方法,用于建筑表面网格提取。大量的实验结果表明,与传统的COLMAP流水线以及几种现有的基于高斯的表面重建和新视图渲染方法相比,我们的MGFs可以以更高的时间效率生成更准确和详细的建筑网格。未来,我们希望将我们的方法扩展到处理包含多个不同建筑的大型场景。

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉交流群,成立啦!

    目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

    工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

    SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

    自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

    三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

    无人机 :四旋翼建模、无人机飞控等

    2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

    最前沿







    请到「今天看啥」查看全文