主要观点总结
文章介绍了基于Segment Anything Model改进的SAM-Road模型,可从卫星图像中提取大规模、矢量化的道路网络图。该模型结合了语义分割和图神经网络,无需复杂的后处理启发式方法,预测图形的几何结构和拓扑结构。模型在城市数据集上的处理速度比现有方法快40倍,同时不牺牲准确性。文章还介绍了模型的主要贡献、具体框架、图像编码器、几何解码器、拓扑解码器以及大区域的滑动窗口推理等内容。
关键观点总结
关键观点1: SAM-Road模型的主要特点
结合了SAM模型的能力,使用语义分割和图神经网络,无需复杂的后处理启发式方法,可直接预测图的顶点和边;使用密集语义分割预测图形几何结构,使用轻量级基于Transformer的图神经网络预测拓扑结构,实现准确快速预测;处理城市数据集的速度比现有最先进的方法快40倍,能够在几秒钟内构建跨越数平方公里的完整道路网络图。
关键观点2: SAM-Road模型的具体架构
包含一个来自预训练SAM的图像编码器、一个几何解码器和一个拓扑解码器;图像编码器用于从输入的RGB卫星图像中提取特征,几何解码器预测图形的几何结构,拓扑解码器预测图形的拓扑结构。
关键观点3: SAM-Road模型的图像编码器和解码器
图像编码器利用SAM的固有优势,将图像转化为潜在表示;几何解码器和拓扑解码器则基于这些表示来预测图形的顶点和边。
关键观点4: SAM-Road模型的训练和推理过程
使用滑动窗口的方式进行预测,每个窗口内的预测结果可以聚合以提高精度;在训练过程中,模型以教师强制方式进行训练,模拟真实的道路网络图;推理过程中,通过缓存每个窗口的图像特征图,进行边预测的推断。
正文
虽然轻地图这套方案已经被业内广泛接受并使用,但是我们发现,对于地图的依赖仍然不可或缺,只是从HD(高精地图)降到了车道级地图(LD Map)乃至标准地图(SD Map)。所以说,我们如果高效的去获取向量化的道路还是非常关键的。
《Segment Anything Model for Road Network Graph Extraction》
一文,这是对 Segment Anything Model (SAM) 的一种改进,用于从卫星图像中提取大规模、矢量化的道路网络图。为了预测图形几何结构,我们将其形式化为一个密集语义分割任务,利用了 SAM 的固有优势。
SAM 的图像编码器经过微调后可生成道路和交叉口的概率掩码,从中通过简单的非极大值抑制提取图的顶点。为了预测图的拓扑结构,我们设计了一种轻量级的基于Transformer的图神经网络,该网络利用 SAM 图像嵌入来估计顶点之间边的存在概率。我们的方法直接预测大区域的图顶点和边,而无需昂贵和复杂的后处理启发式方法,并能够在几秒钟内构建跨越多个平方公里的完整道路网络图。凭借其简单、直接和极简的设计,SAM-Road 在 City-scale 数据集上实现了与最先进方法 RNGDet++相当的精度,同时速度快 40 倍。因此,我们展示了基础视觉模型在图学习任务中的强大功能。
代码可在
Github
上获取:
https://github.com/htcr/sam_road
>图 1. SAM-Road 能有效预测密集城市区域的准确道路网络图,包括形状复杂和不规则的道路、桥梁和多车道高速公路。相应的分割掩码清晰锐利。
1.SAM-Road 模型:
发挥了SAM模型的能力,结合了语义分割和图神经网络。模型可以直接预测图的顶点和边,无需复杂的后处理启发式方法。
2.图形几何和拓扑预测:
使用密集语义分割来预测图形的几何结构,并使用轻量级的基于Transformer的图神经网络来预测拓扑结构,从而实现准确和快速的预测。
3. 效率和速度:
在城市数据集上的处理速度比现有最先进的方法快 40 倍,同时不牺牲准确性,能够在几秒钟内构建跨越数平方公里的完整道路网络图。
> 图 2. 我们的方法 SAM-Road 的架构。它包含一个来自预训练 SAM的图像编码器,一个几何解码器和一个拓扑解码器。它直接从输入的 RGB 卫星图像中预测矢量化的图形顶点(黄色)和边(橙色)。请放大查看,并使用彩色显示以获得更好的效果。
图形几何预测被表述为一个密集的语义分割任务。这有两个主要好处:首先,这种表述利用了 SAM 的强大功能;其次,每像素的自下而上的表示可以处理任意复杂的道路结构。
我们为交叉口和道路分别预测掩码,以在交叉口处获得更准确的图形结构。如果只有道路掩码,无法保证交叉口的中心点会被保留,可能会产生如图 6 所示的误差模式。为了解决这个问题:1). 使用相同的非极大值抑制(NMS)算法从两个掩码中提取顶点。2). 将两组顶点合并,所有交叉口顶点的得分都高于任何道路顶点。3). 对合并后的集合再次进行 NMS 处理以生成最终结果。这确保了尽可能多地保留交叉点。
> 图 6. 左图:标准的 SAM-Road。中图:无交叉口掩码。交叉口明显更加噪杂。右图:使用 A* 算法进行拓扑预测,导致许多错误的正连接。
6.1 掩码标签
对于道路掩码标签,
我们将地面真实道路线栅格化,绘制每条边为宽度为 3 像素的线段。
线段覆盖的像素设置为 1,其他像素设置为 0。
对于交叉口标签,我们找到所有度不等于 2 的图顶点,并将它们渲染为半径为 3 像素的圆。
这部分灵感来自 OpenPose的工作,该工作将人体关键点图表示为热图。
6.2 拓扑标签
在训练过程中,我们不运行顶点提取过程。拓扑解码器以教师强制方式进行训练,即被询问的顶点不是来自模型预测,而是从地面真实道路网络图中采样以模拟预测。这是通过先细分地面真实图,然后运行与推理阶段相同的 NMS 过程来实现的。为了模拟各种 NMS 结果,给每个细分顶点分配一个均匀的随机分数。
使用的数据集中的卫星图像覆盖了多达 4 平方公里的大区域,因此我们随机裁剪 RGB 图像、地面真实掩码和图形为较小的块,以获得更多的训练样本并保持内存消耗在可控范围内。
SAM-Road 可以通过滑动窗口的方式预测任意大区域的整个道路网络图,如图 4 所示。每个窗口内的预测结果可以聚合以提高精度。在视觉应用中融合多次观测是一种常见的做法 [15, 30, 33, 45],可以有效抑制噪声。对于 SAM-Road,这适用于几何和拓扑。