重现复杂城市环境！ULSR-GS：超大规模场景高保真表面提取框架

自动驾驶之心 · 公众号 · · 2024-12-11 07:30

正文

点击下方卡片，关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

基于 GS 的大规模表面重建挑战

3D 高斯点散射（3D Gaussian Splatting, 3DGS）作为一种开创性的方法，在 3D 表面重建和渲染领域展现了卓越的能力，可实现高质量的场景表示并支持提取细节丰富的网格。然而，现有基于 GS 的研究主要集中于 小规模表面重建 或 大规模场景渲染 ，但并未针对大规模城市表面重建进行优化。在基于 GS 的大规模城市表面重建应用中存在稀缺性的原因主要包括以下几个方面：

计算复杂性 ：处理庞大的城市数据集需要耗费大量计算资源和显存，对于单 GPU 的任务尤为困难，这对 GS 方法的可扩展性构成了重大挑战。
分区策略的局限性 ：现有大规模基于 GS 的方法通常针对场景渲染进行了优化，而它们的分区策略并未针对网格重建任务进行调整。
重建质量问题 ：某些区域的密化处理不足，尤其是在处理数千幅航拍倾斜影像时，导致重建精度受限。

ULSR-GS [1]是一种结合点到图像划分方法与多视图约束密化的方法,用于应对基于 GS 的大规模表面重建挑战。具体而言，不同于基于图像位置的分区方法，基于匹配的多视图图像选择最优的视图集合，并考虑每个点的摄像机角度、距离和配对质量等因素。这种有针对性的图像选择不仅能够通过利用最有信息量的图像确保高质量的表面重建，还能够减少冗余数据的处理。此外，我们引入了一种多视图训练策略，该策略在每次训练迭代时基于与当前处理图像最佳匹配的视图施加额外约束。这种训练策略通过利用多个角度的最有信息量图像，实现了更稳健且一致的重建。我们进一步在密化过程中融入多视图一致性约束，从而确保密化步骤在跨视图几何关系一致的前提下进行，生成更精确的表面细节。

项目主页 ：https://ulsrgs.github.io/

主要贡献 ：

提出了一种专为克服现有基于 GS 的方法在大规模表面重建中的局限性而设计的新方法 ULSR-GS。
提出了一种创新的点到图像场景划分策略，用于大规模场景网格提取中的 GS 方法。该策略基于最佳匹配视图选择每个子区域的图像，提高了重建精度。
提出了用于密化过程的多视图一致性约束，在大规模城市环境中生成了详细且精确的重建结果。

具体方法

多视图优化点划分

与之前研究基于无人机照片位置进行区域划分的方式不同，我们的方法基于场景的初始点云，并为每个子区域的点云选择最佳训练图像。此方法的优势在于能够在早期阶段确定每个子区域网格的提取边界，而无需在整个场景合并后再进行提取。

密度控制的边界精化

为了有效地将初始点划分为子区域，关键在于隔离场景的主要结构组件，并消除可能扭曲边界定义的稀疏和噪声的结构化运动（SfM）点。

清理点云 ：首先，移除所有 SfM 重投影误差【29】大于阈值（实验中 $\epsilon_{\text{error}} > 1.5\））的 3D 点。这一步通过丢弃不可靠的点清理了点云，避免了划分过程中被错误点干扰。
划分体素网格 ：将 3D 空间划分为体素网格，其大小为，并根据每个点的坐标将 SfM 点分配到对应体素：

对于每个体素，计算包含的点数：

其中为 Kronecker δ 函数【15】。
密度阈值过滤 ：计算最大体素占用数的阈值比例（如），并将的体素保留为高密度体素。
确定边界 ：通过计算点的最小和最大坐标获取场景的精确边界。

初始视图选择

如图 2（I）所示，输入的 SfM 点云经过密度过滤后被划分为网格。每个子区域中的点都作为检测到它的图像的特征点，初步选择所有匹配的图像作为粗粒度的视图选择（见图 2(e)）。

源视图选择

为了进一步优化视图选择，在公式 (1) 基础上，基于相机对距离应用区域约束，仅选择距离小于指定最大阈值的图像对。最终的匹配得分为：

然后，为每个参考图像，选择具有最高匹配分数的前三个源图像组成最佳视图集合。

每点最优视图选择

目标是确保子区域内的每个 SfM 点都与最具信息量和几何鲁棒性的图像对相关联。具体步骤如下：

将每个点投影到参考图像和对应的源图像的 2D 图像平面上。
计算每个投影点与对应图像中心的平均欧几里得距离。
在所有观察的四图像组中，选择最小的组。

通过这种方式，主要由距离图像中心最近的图像重建，从而提升三角化的可靠性。

去除冗余图像

在确定所有子区域内最佳图像组后，排除不在任何最佳组中的图像。实验中，这些被排除的图像通常位于子区域的最外侧，属于只能观察到少量点的冗余图像。

自适应多视图密化

先前的研究表明，较精细的高斯原语对于捕捉高频几何细节至关重要。在 ULSR-GS 中，我们通过一种类似于多视图立体（MVS）的方法进行额外的密化，以解决基于 TSDF 融合的计算导致的网格过于平滑的问题。此方法将投影到 3D 空间，并结合 GT 图像的 RGB 信息来丰富高斯原语。

多视图深度聚合

在我们的方法中，我们对来自多个源视图的深度信息进行加权平均聚合。加权方式为每个深度估计分配一个基于几何一致性的置信分数，确保几何一致性更高的源视图在最终深度估计中占据更大权重。

具体来说，我们从公式 (8) 中选择了三个源视图，每个源视图的渲染深度