点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:PG-SAG: Parallel Gaussian Splatting for Fine-Grained Large-Scale Urban Buildings Reconstruction via Semantic-Aware Grouping
作者:Tengfei Wang, Xin Wang, Yongmao Hou, Yiwei Xu, Wendi Zhang, Zongqian Zhan
机构:Wuhan University
原文链接:https://arxiv.org/abs/2501.01677
代码链接:https://github.com/TFWang-9527/PG-SAG
1. 导读
3D Gaussian Splatting (3DGS)已成为实时小说合成领域的一种变革性方法。在3DGS的基础上,最近的进展通过基于空间的分区策略来处理大规模场景,以减少视频内存和优化时间成本。在这项工作中,我们介绍了一种并行高斯splatting方法,称为PG-SAG,它充分利用分割和高斯核优化的语义线索,在不降低原始图像分辨率的情况下,实现大规模城市区域的细粒度建筑物表面重建。首先,跨模态模型语言分段任何东西都被用来分段构建模板。然后,根据跨配准图像的可见度检查,将分割的建筑物区域分组为子区域。这些子区域的高斯核与屏蔽像素并行优化。此外,对于检测到的掩模边缘,法向损失被重新公式化,以减轻边缘上的法向矢量的模糊性。最后,为了改进3D高斯模型的优化,我们引入了一个考虑到相应场景复杂性的梯度约束平衡负载损失,有效地减少了像素并行渲染阶段的线程等待时间和重建损失。在各种城市数据集上进行了大量的实验,实验结果证明了我们的PG-SAG在建筑物表面重建方面的优越性能,优于几种最先进的基于3DGS的方法。
2. 效果展示
DPCV数据集的整体表面重建结果,以及与其他方法和我们的方法使用高分辨率图像的比较。我们的PG-SAG使用原始分辨率生成最详细的网格。此外,与较低分辨率的其他方法相比,我们再次表现出明显的优势。
三个数据集重建结果:
使用各种方法比较俄罗斯建筑、现代建筑和DPCV数据集的网格重建结果。值得注意的是,由于内存限制GOF方法无法提取俄罗斯建筑物和DPCV数据集的网格。为了清晰起见,每个图都包含一个包含在红色限界框中的放大视图,显示在右上角,以提供细粒度重构质量的更详细视图。
推荐课程:
基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]
。
3. 方法
首先,我们应用预训练的LSA模型对图像中的建筑物和其他物体进行初步的粗略分割。然后,我们使用可靠性评分的多视图投票过滤器来细化这些掩模,从而提高分割准确性和跨多视图的连贯性。最后,我们根据相机可见性和相机与稀疏点之间的相关性将整个场景中的建筑物区域分组为子组;每个子组包含其关联的稀疏点、相机和细化的掩模。我们的语义感知数据分组策略的管道如图3所示
4. 实验结果
5. 总结 & 限制性
在这项工作中,我们介绍了PG-SAG,一种基于3DGS的新方法,用于大规模城市场景中的细粒度建筑重建。通过利用语义感知的分组策略,PG-SAG可以有效地管理计算约束,从而无需下采样即可进行高分辨率图像处理。我们的方法通过整合边界感知正常损失和梯度约束平衡负荷损失,解决了城市建筑重建中的关键挑战,包括边界模糊和计算负荷。实验结果表明,PG-SAG不仅提高了建筑表面重建的精确度,还减少了训练时间,使其成为大规模城市应用的实用解决方案。
虽然我们的方法实现了准确的建筑物掩模,但自动分割模型(如LSA)在识别其他类型特征方面效果较差。在后续工作中,我们计划结合深度信息以增强语义和几何约束,以实现更全面的分割和重建。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、