专栏名称: arXiv每日学术速递

跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

arXiv每日学术速递 · 公众号 · · 2024-12-19 16:28

正文

‍ 导读

本文是VCC谢恒同学对论文 Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery 的解读，该工作来自香港中文大学（深圳）未来智联网络研究院、香港中文大学（深圳）理工学院和中山大学联合研究课题组，并已被发表在计算机视觉顶会CVPR 2024上。

项目主页：

https://zyqz97.github.io/Aerial_Lifting/

该工作提出了 一种基于NeRF的城市点云语义和实例分割的方法 ，首先引入了 一种尺度自适应的语义标签融合策略 ，并利用NeRF的多视图合成能力，结合从不同高度预测的标签来增强不同大小对象的分割精度。然后， 基于3D场景表示引入了一种跨视图实例标签分组方法 ，以减轻2D实例标签中的多视图不一致性问题。此外还利用 多视图重建的深度先验信息来改善重建辐射场的几何质量 ，从而提高分割结果。

注：本文图片均来自原论文与其项目主页。

引言

3D城市规模的语义理解在各种应用中扮演着关键角色，从城市规划到自动驾驶系统都有重要作用。因此，针对3D场景实现准确的语义和实例级别分割对于广泛的语义分析任务至关重要。但是，3D场景的语义标注成本高昂，自动化程度较差，尤其对于城市航拍图像捕获的场景，包括建筑物、车辆和道路，现有的语义标注或分割方法往往难以有效处理这些差异极大的语义对象，因为其训练数据分布与航拍图像不同。此外，现有方法生成的2D实例标签往往存在多视图不一致问题（例如，一个对象在一个视图中被分割为一个实例，而在另一个视图中可能被分割为多个独立的实例）。一些方法采用Neural Radiance Fields (NeRF) 来将二维图像标签提升到三维表示来降低标注的成本。

本次导读论文介绍了一种新的基于NeRF的城市点云分割方法来解决以上问题，该方法主要通过三种策略来提高分割的准确性和鲁棒性。首先，该方法提出了一种自适应尺度的语义标签融合策略，通过融合不同高度预测的标签来分割不同大小的目标。其次，通过引入了一个跨视图实例标签分组策略，利用来自其他视图的信息对视图中的实例标签进行分组。此外，该方法还利用从多视点数据中获得的深度先验来提高重建辐射场的几何质量，进一步提升分割效果。实验结果表明，与现有方法相比，该方法在多个现实世界的城市规模场景中都取得了较好的结果，证明其性能的优越性。

技术贡献

本工作主要贡献如下：

提出了一种 针对城市规模语义和建筑级别实例分割的新型辐射场方法 ，通过将2D标签投影到3D，实现了SOTA的结果；
引入了一种 尺度自适应的语义标签融合策略 ，将从不同高度预测的2D标签结合起来，以增强对不同大小对象的分割；
提出了一种 基于3D场景表示的跨视图实例标签分组方法 ，以减轻2D实例标签中的多视图不一致性问题，从而产生更可靠的实例分割结果。

III

方法介绍

图1 Aerial Lifting模型整体结构

Aerial Lifting方法的整体结构如图1所示，主要包括语义标签融合和实例标签构建两部分。语义标签融合用于避免图像的尺度可变性使网络无法预测小型物体的语义标签。实例标签构建则解决了冗余掩模生成的问题以及在多个视图下同一物体实例标签的连续性问题。

1. 尺度自适应语义标签融合

对于每个输入的原始图像，Aerial Lifting方法通过增加相机高度以进行新视图渲染，渲染一组远视图图像

\{ I^f \}

然后计算远视图图像的分割掩模

\{ M^f \}

利用从神经辐射场获得的深度信息，将远视图分割结果投影到原始视图，以细化建筑类别的掩模。具体来说，将远视图像中坐标视为

\{ p^f \}

的像素点，原图像中投影像素点坐标

\{ p^o \}

定义为：

p^o \sim K T_{f \rightarrow o} Ď^f (p^f) K^{-1} p^f

其中K为摄像机的内参

，T_{f→o}

为远点到原摄像机的相对变换

，Ď^f

表示远视图图像的渲染深度图。如图2所示，Aerial Lifting选择Mask2Former来估计输入视图的2D分割掩模。

图2 自适应尺度语义标签融合过程

2. 语义无关的实例生成

Aerial Lifting方法利用SAM生成建筑实例分割的语义无关掩模，对于每张图像，使用32×32点的网格作为SAM的输入提示，以预测一组可能的实例。尽管SAM具有广泛的适应性，但其生成的掩模存在两种特征，可能会对建筑实例分割造成不利影响：

1) SAM模型生成的掩模具有不同的粒度，这可能导致较小的掩模嵌套在较大的掩模内部，从而产生属于同一实例的冗余掩模 (如建筑掩模上方的窗户掩模)；

2) 同一三维实例的生成二维掩模在多视角下并不一致，在某个视角中准确分割的建筑实例可能在另一个视角中被分割为多个不同的实例。

3. 几何引导的实例过滤

几何引导的实例过滤旨在识别并移除嵌套在较大掩模内部的较小掩模，并展现有限的高度变化。具体而言，利用相机参数和从辐射场计算得到的每张图像的深度图Ď，将每个掩模的像素映射到三维空间，以确定其的物理高度，即最高高度和最低高度的差值，然后过滤掉高度小于阈值的嵌套掩模。

4. 跨视图实例标签分组

如图3所示，跨视图实例标签分组的关键思想是跨不同视图同步实例分割，从而将较小的分割实例合并为一个单一的、连贯的实例。给定一个对应N个图像的场景以及一组预测的SAM掩模，每个视图表示为

H_i，

当从第i个视图的角度检查实例分割时，必须合并来自其他视图的分割信息，将所有其他视图(j)的SAM掩模投影到第i个视图上，投影的掩模被表示为：

\{ H_{j \rightarrow i} | j = 1, \ldots, N, j/ \neq i \}

对于每个实例掩模

H_i^k，

在

H_{j→i}

中找到识别相应的掩模，如果

H_i^k

和

H_{j→i}

的交集与其最小区域的比率超过了阈值

\tau

也即

\frac{\left| H_i^k \cap H_{j \rightarrow i} \right|}{\min \left( \left| H_i^k \right|, \left| H_{j \rightarrow i} \right| \right)} >\tau,

那么就在二者之间建立一个匹配，其中| ∙ |表示区域的掩模，且

\tau

被置为0.5。在确定匹配后，通过合并相应的掩模区域来合并相应的掩模，从而产生扩展的掩模

H_{i \cup j}^k 。

这个过程在所有的匹配中重复，从而产生一个扩展的掩模集合，然后将这些扩展的掩模组合起来，形成每个实例的综合交叉视图掩模

U_i^k = \bigcup_{j \neq i} H_{i \cup j}^k。

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

正文

请到「今天看啥」查看全文