专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

经典文献阅读 | 基于遥感影像中提取向量化的道路网络

新机器视觉 · 公众号 · 科技自媒体 · 2024-10-24 16:30

主要观点总结

文章介绍了基于Segment Anything Model改进的SAM-Road模型，可从卫星图像中提取大规模、矢量化的道路网络图。该模型结合了语义分割和图神经网络，无需复杂的后处理启发式方法，预测图形的几何结构和拓扑结构。模型在城市数据集上的处理速度比现有方法快40倍，同时不牺牲准确性。文章还介绍了模型的主要贡献、具体框架、图像编码器、几何解码器、拓扑解码器以及大区域的滑动窗口推理等内容。

关键观点总结

关键观点1: SAM-Road模型的主要特点

结合了SAM模型的能力，使用语义分割和图神经网络，无需复杂的后处理启发式方法，可直接预测图的顶点和边；使用密集语义分割预测图形几何结构，使用轻量级基于Transformer的图神经网络预测拓扑结构，实现准确快速预测；处理城市数据集的速度比现有最先进的方法快40倍，能够在几秒钟内构建跨越数平方公里的完整道路网络图。

关键观点2: SAM-Road模型的具体架构

包含一个来自预训练SAM的图像编码器、一个几何解码器和一个拓扑解码器；图像编码器用于从输入的RGB卫星图像中提取特征，几何解码器预测图形的几何结构，拓扑解码器预测图形的拓扑结构。

关键观点3: SAM-Road模型的图像编码器和解码器

图像编码器利用SAM的固有优势，将图像转化为潜在表示；几何解码器和拓扑解码器则基于这些表示来预测图形的顶点和边。

关键观点4: SAM-Road模型的训练和推理过程

使用滑动窗口的方式进行预测，每个窗口内的预测结果可以聚合以提高精度；在训练过程中，模型以教师强制方式进行训练，模拟真实的道路网络图；推理过程中，通过缓存每个窗口的图像特征图，进行边预测的推断。

正文

0. 简介

虽然轻地图这套方案已经被业内广泛接受并使用，但是我们发现，对于地图的依赖仍然不可或缺，只是从HD（高精地图）降到了车道级地图（LD Map）乃至标准地图（SD Map）。所以说，我们如果高效的去获取向量化的道路还是非常关键的。《Segment Anything Model for Road Network Graph Extraction》一文，这是对 Segment Anything Model (SAM) 的一种改进，用于从卫星图像中提取大规模、矢量化的道路网络图。为了预测图形几何结构，我们将其形式化为一个密集语义分割任务，利用了 SAM 的固有优势。

SAM 的图像编码器经过微调后可生成道路和交叉口的概率掩码，从中通过简单的非极大值抑制提取图的顶点。为了预测图的拓扑结构，我们设计了一种轻量级的基于Transformer的图神经网络，该网络利用 SAM 图像嵌入来估计顶点之间边的存在概率。我们的方法直接预测大区域的图顶点和边，而无需昂贵和复杂的后处理启发式方法，并能够在几秒钟内构建跨越多个平方公里的完整道路网络图。凭借其简单、直接和极简的设计，SAM-Road 在 City-scale 数据集上实现了与最先进方法 RNGDet++相当的精度，同时速度快 40 倍。因此，我们展示了基础视觉模型在图学习任务中的强大功能。

代码可在 Github 上获取： https://github.com/htcr/sam_road

>图 1. SAM-Road 能有效预测密集城市区域的准确道路网络图，包括形状复杂和不规则的道路、桥梁和多车道高速公路。相应的分割掩码清晰锐利。

1. 主要贡献

1.SAM-Road 模型： 发挥了SAM模型的能力，结合了语义分割和图神经网络。模型可以直接预测图的顶点和边，无需复杂的后处理启发式方法。

2.图形几何和拓扑预测： 使用密集语义分割来预测图形的几何结构，并使用轻量级的基于Transformer的图神经网络来预测拓扑结构，从而实现准确和快速的预测。

3. 效率和速度： 在城市数据集上的处理速度比现有最先进的方法快 40 倍，同时不牺牲准确性，能够在几秒钟内构建跨越数平方公里的完整道路网络图。

2. 具体框架

> 图 2. 我们的方法 SAM-Road 的架构。它包含一个来自预训练 SAM的图像编码器，一个几何解码器和一个拓扑解码器。它直接从输入的 RGB 卫星图像中预测矢量化的图形顶点（黄色）和边（橙色）。请放大查看，并使用彩色显示以获得更好的效果。

3. 图像编码器

4. 几何解码器

图形几何预测被表述为一个密集的语义分割任务。这有两个主要好处：首先，这种表述利用了 SAM 的强大功能；其次，每像素的自下而上的表示可以处理任意复杂的道路结构。

我们为交叉口和道路分别预测掩码，以在交叉口处获得更准确的图形结构。如果只有道路掩码，无法保证交叉口的中心点会被保留，可能会产生如图 6 所示的误差模式。为了解决这个问题：1). 使用相同的非极大值抑制（NMS）算法从两个掩码中提取顶点。2). 将两组顶点合并，所有交叉口顶点的得分都高于任何道路顶点。3). 对合并后的集合再次进行 NMS 处理以生成最终结果。这确保了尽可能多地保留交叉点。

> 图 6. 左图：标准的 SAM-Road。中图：无交叉口掩码。交叉口明显更加噪杂。右图：使用 A* 算法进行拓扑预测，导致许多错误的正连接。

5. 拓扑解码器

6 .标签生成

6.1 掩码标签

对于道路掩码标签， 我们将地面真实道路线栅格化，绘制每条边为宽度为 3 像素的线段。 线段覆盖的像素设置为 1，其他像素设置为 0。 对于交叉口标签，我们找到所有度不等于 2 的图顶点，并将它们渲染为半径为 3 像素的圆。 这部分灵感来自 OpenPose的工作，该工作将人体关键点图表示为热图。

6.2 拓扑标签

在训练过程中，我们不运行顶点提取过程。拓扑解码器以教师强制方式进行训练，即被询问的顶点不是来自模型预测，而是从地面真实道路网络图中采样以模拟预测。这是通过先细分地面真实图，然后运行与推理阶段相同的 NMS 过程来实现的。为了模拟各种 NMS 结果，给每个细分顶点分配一个均匀的随机分数。

使用的数据集中的卫星图像覆盖了多达 4 平方公里的大区域，因此我们随机裁剪 RGB 图像、地面真实掩码和图形为较小的块，以获得更多的训练样本并保持内存消耗在可控范围内。

7. 大区域的滑动窗口推理

SAM-Road 可以通过滑动窗口的方式预测任意大区域的整个道路网络图，如图 4 所示。每个窗口内的预测结果可以聚合以提高精度。在视觉应用中融合多次观测是一种常见的做法 [15, 30, 33, 45]，可以有效抑制噪声。对于 SAM-Road，这适用于几何和拓扑。