专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
能源电力说  ·  远不止储能!特斯拉上海储能超级工厂投产 ·  昨天  
能源电力说  ·  远不止储能!特斯拉上海储能超级工厂投产 ·  昨天  
数智前线  ·  DeepSeek让多地智算中心停建?业界总结 ... ·  昨天  
艾锋降级  ·  紧急发布!iOS 18.3.1 ... ·  2 天前  
华龙网  ·  今天,送别黄旭华院士! ·  2 天前  
AIGC开放社区  ·  DeepSeek获得全球最贵顶级域名之一AI ... ·  3 天前  
AIGC开放社区  ·  DeepSeek获得全球最贵顶级域名之一AI ... ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

经典文献阅读 | 基于遥感影像中提取向量化的道路网络

新机器视觉  · 公众号  · 科技自媒体  · 2024-10-24 16:30

主要观点总结

文章介绍了基于Segment Anything Model改进的SAM-Road模型,可从卫星图像中提取大规模、矢量化的道路网络图。该模型结合了语义分割和图神经网络,无需复杂的后处理启发式方法,预测图形的几何结构和拓扑结构。模型在城市数据集上的处理速度比现有方法快40倍,同时不牺牲准确性。文章还介绍了模型的主要贡献、具体框架、图像编码器、几何解码器、拓扑解码器以及大区域的滑动窗口推理等内容。

关键观点总结

关键观点1: SAM-Road模型的主要特点

结合了SAM模型的能力,使用语义分割和图神经网络,无需复杂的后处理启发式方法,可直接预测图的顶点和边;使用密集语义分割预测图形几何结构,使用轻量级基于Transformer的图神经网络预测拓扑结构,实现准确快速预测;处理城市数据集的速度比现有最先进的方法快40倍,能够在几秒钟内构建跨越数平方公里的完整道路网络图。

关键观点2: SAM-Road模型的具体架构

包含一个来自预训练SAM的图像编码器、一个几何解码器和一个拓扑解码器;图像编码器用于从输入的RGB卫星图像中提取特征,几何解码器预测图形的几何结构,拓扑解码器预测图形的拓扑结构。

关键观点3: SAM-Road模型的图像编码器和解码器

图像编码器利用SAM的固有优势,将图像转化为潜在表示;几何解码器和拓扑解码器则基于这些表示来预测图形的顶点和边。

关键观点4: SAM-Road模型的训练和推理过程

使用滑动窗口的方式进行预测,每个窗口内的预测结果可以聚合以提高精度;在训练过程中,模型以教师强制方式进行训练,模拟真实的道路网络图;推理过程中,通过缓存每个窗口的图像特征图,进行边预测的推断。


正文

0. 简介


虽然轻地图这套方案已经被业内广泛接受并使用,但是我们发现,对于地图的依赖仍然不可或缺,只是从HD(高精地图)降到了车道级地图(LD Map)乃至标准地图(SD Map)。所以说,我们如果高效的去获取向量化的道路还是非常关键的。 《Segment Anything Model for Road Network Graph Extraction》 一文,这是对 Segment Anything Model (SAM) 的一种改进,用于从卫星图像中提取大规模、矢量化的道路网络图。为了预测图形几何结构,我们将其形式化为一个密集语义分割任务,利用了 SAM 的固有优势。


SAM 的图像编码器经过微调后可生成道路和交叉口的概率掩码,从中通过简单的非极大值抑制提取图的顶点。为了预测图的拓扑结构,我们设计了一种轻量级的基于Transformer的图神经网络,该网络利用 SAM 图像嵌入来估计顶点之间边的存在概率。我们的方法直接预测大区域的图顶点和边,而无需昂贵和复杂的后处理启发式方法,并能够在几秒钟内构建跨越多个平方公里的完整道路网络图。凭借其简单、直接和极简的设计,SAM-Road 在 City-scale 数据集上实现了与最先进方法 RNGDet++相当的精度,同时速度快 40 倍。因此,我们展示了基础视觉模型在图学习任务中的强大功能。


代码可在 Github 上获取: https://github.com/htcr/sam_road



>图 1. SAM-Road 能有效预测密集城市区域的准确道路网络图,包括形状复杂和不规则的道路、桥梁和多车道高速公路。相应的分割掩码清晰锐利。


1. 主要贡献


1.SAM-Road 模型: 发挥了SAM模型的能力,结合了语义分割和图神经网络。模型可以直接预测图的顶点和边,无需复杂的后处理启发式方法。


2.图形几何和拓扑预测: 使用密集语义分割来预测图形的几何结构,并使用轻量级的基于Transformer的图神经网络来预测拓扑结构,从而实现准确和快速的预测。


3. 效率和速度: 在城市数据集上的处理速度比现有最先进的方法快 40 倍,同时不牺牲准确性,能够在几秒钟内构建跨越数平方公里的完整道路网络图。


2. 具体框架




> 图 2. 我们的方法 SAM-Road 的架构。它包含一个来自预训练 SAM的图像编码器,一个几何解码器和一个拓扑解码器。它直接从输入的 RGB 卫星图像中预测矢量化的图形顶点(黄色)和边(橙色)。请放大查看,并使用彩色显示以获得更好的效果。


3. 图像编码器



4. 几何解码器


图形几何预测被表述为一个密集的语义分割任务。这有两个主要好处:首先,这种表述利用了 SAM 的强大功能;其次,每像素的自下而上的表示可以处理任意复杂的道路结构。




我们为交叉口和道路分别预测掩码,以在交叉口处获得更准确的图形结构。如果只有道路掩码,无法保证交叉口的中心点会被保留,可能会产生如图 6 所示的误差模式。为了解决这个问题:1). 使用相同的非极大值抑制(NMS)算法从两个掩码中提取顶点。2). 将两组顶点合并,所有交叉口顶点的得分都高于任何道路顶点。3). 对合并后的集合再次进行 NMS 处理以生成最终结果。这确保了尽可能多地保留交叉点。



> 图 6. 左图:标准的 SAM-Road。中图:无交叉口掩码。交叉口明显更加噪杂。右图:使用 A* 算法进行拓扑预测,导致许多错误的正连接。


5. 拓扑解码器





6 .标签生成


6.1 掩码标签


对于道路掩码标签, 我们将地面真实道路线栅格化,绘制每条边为宽度为 3 像素的线段。 线段覆盖的像素设置为 1,其他像素设置为 0。 对于交叉口标签,我们找到所有度不等于 2 的图顶点,并将它们渲染为半径为 3 像素的圆。 这部分灵感来自 OpenPose的工作,该工作将人体关键点图表示为热图。


6.2 拓扑标签


在训练过程中,我们不运行顶点提取过程。拓扑解码器以教师强制方式进行训练,即被询问的顶点不是来自模型预测,而是从地面真实道路网络图中采样以模拟预测。这是通过先细分地面真实图,然后运行与推理阶段相同的 NMS 过程来实现的。为了模拟各种 NMS 结果,给每个细分顶点分配一个均匀的随机分数。



使用的数据集中的卫星图像覆盖了多达 4 平方公里的大区域,因此我们随机裁剪 RGB 图像、地面真实掩码和图形为较小的块,以获得更多的训练样本并保持内存消耗在可控范围内。


7. 大区域的滑动窗口推理


SAM-Road 可以通过滑动窗口的方式预测任意大区域的整个道路网络图,如图 4 所示。每个窗口内的预测结果可以聚合以提高精度。在视觉应用中融合多次观测是一种常见的做法 [15, 30, 33, 45],可以有效抑制噪声。对于 SAM-Road,这适用于几何和拓扑。








请到「今天看啥」查看全文