专栏名称: 锐多宝
遥感技术教程、资讯与前沿论文
目录
相关文章推荐
募格学术  ·  严重缺人!多地发布紧缺人才目录 ·  13 小时前  
医药经济报  ·  2024年医改政策三大主线回顾 ·  昨天  
晋江市市场监督管理局  ·  永和所多举措保障药品价格市场稳定 ·  19 小时前  
NaturePortfolio  ·  苏州实验室、港中深、于默奥大学… ... ·  3 天前  
51好读  ›  专栏  ›  锐多宝

数据集 | 全球街景图像数据集OpenStreetView-5M正式开放

锐多宝  · 公众号  ·  · 2024-07-10 23:02

正文

OSV-5M

OpenStreetView-5M



OSV-5M

题目: OpenStreetView-5M: The Many Roads to Global Visual Geolocation

链接: https://github.com/gastruc/osv5m?utm_source=uwl.me

https://imagine.enpc.fr/~ioannis.siglidis/osv5m/

摘要: 确定地球上任何位置的图像是一项复杂的视觉任务,因此评估计算机视觉算法时经常使用地球上任何位置的图像。然而,由于缺乏可靠定位图像的标准、大规模、开放访问的数据集,评估过程中受到了限制。为了解决这个问题,我们推出了OpenStreetView-5M,这是一个大规模、开放访问的数据集,包含超过510万张地理参照的街景图像,覆盖225个国家和地区。与现有的基准数据集不同,我们实施了严格的训练/测试分离,使我们能够评估所学地理特征的相关性,而不仅仅是记忆能力。为了证明我们的数据集的有用性,我们对各种最先进的图像编码器、空间表示和训练策略进行了广泛的基准测试。所有相关的代码和模型可在https://github.com/gastruc/osv5m找到。

往期推荐:

【数据集】图像和NLP领域开源数据集

【数据集X2】深圳地铁刷卡数据 | OSM中国完整地图

【数据集】开源车辆轨迹数据集详细汇总!

【数据集】自动驾驶领域开源数据集详细汇总

【数据集】交通领域开源数据集详细汇总



研究背景

可定位性

图像的可定位性是一个固有的感知概念,图像展现出不同程度的可定位性。不可定位的图像缺乏将其与特定位置相连接的信息,或者质量太低而无法正确分析。弱可定位图像仅包含模糊或间接的提示,如室内场景中的人物、动物和物体。可定位图像应包含足够的信息,以允许对其位置进行合理的猜测。例如,街景图像通常包含显著特征,这些特征能够指示当地环境,如气候、自然、建筑或公用和监管基础设施。

地理位置数据集

现有地理位置数据集主要来自两个主要来源:网络抓取图像和街景图像。网络抓取图像平台如Flickr提供了近乎无限的地理标记图像来源,但这些图像大多不可定位,且存在显著的文化偏见。相比之下,街景图像通常可定位,但专有且昂贵,限制了其广泛使用。

地理位置方法

地点识别和视觉定位是流行的任务,它们涉及在已知场景中查找图像的姿态。相比之下,视觉地理位置预测旨在预测二维坐标或离散位置(如国家),对准确性的要求较低,但能够泛化到未见区域。现有地理位置方法可以分为是否将地理位置视为图像检索问题、分类问题或两者结合。

OpenStreetView-5M

OpenStreetView-5M通过提供一个大型、开放且干净的数据集,旨在成为评估全球视觉地理位置模型的新标准。以下是OSV-5M对数据集现有局限性的改进:

  • 规模: OSV-5M包含4,894,685张训练图像和210,122张测试图像,图像高度为512像素,平均宽度为792±127像素。

    范围: 图像均匀分布在全球,覆盖70,000个城市和225个国家和地区,测试集图像在国家间的分布具有较高的多样性。


  • 访问: OSV-5M基于Mapillary的众包街景图像,这些图像遵循CC-BY-SA许可,可以免费使用但需注明来源。

  • 质量评估: 通过手动检查估计,96.1%(±0.57%)的图像是可定位的。

  • 空间分离: 为了确保评估的公正性,我们确保训练集中的图像与测试集中的图像在空间上分离,没有一张训练图像位于测试图像1公里半径范围内。

  • 序列分离: 为了避免因相机传感器和车辆之间的相关性简化地理位置任务,我们确保同一序列的图像不会同时出现在训练集和测试集中。

  • 元数据: 除了地理坐标外,每个图像还关联了四级行政数据(国家、地区、区域、最近城市)以及其他信息(如土地覆盖、气候、土壤类型、驾驶侧、到最近海洋的距离)。


基准测试

我们使用OSV-5M对视觉地理位置的监督深度学习方法进行了基准测试。我们首先介绍了评估指标和框架,然后探讨了不同的设计选择,包括图像编码器、预测目标、微调策略和对比损失。

1.  评估指标

我们使用以下三个互补的指标集来评估地理位置模型的准确性:

Haversine距离: 预测位置和真实位置之间的球面距离。

Geoscore: 基于著名的GeoGuessr游戏定义,对精确预测给予奖励,同时不过度敏感于极端错误的预测。

行政边界的准确性: 预测位置在国家、地区、区域和城市级行政边界的准确性。


2.框架

评估的模型遵循一致的架构,包含图像编码器模块(将图像映射为向量表示)和地理位置预测头模块(将向量映射为地理坐标)。


1.图像编码器

我们测试了不同的图像编码器架构、预训练策略和数据集对性能的影响。实验结果表明,模型大小、预训练策略和预训练数据集选择对性能有显著影响。







请到「今天看啥」查看全文


推荐文章
募格学术  ·  严重缺人!多地发布紧缺人才目录
13 小时前
医药经济报  ·  2024年医改政策三大主线回顾
昨天
晋江市市场监督管理局  ·  永和所多举措保障药品价格市场稳定
19 小时前
腾讯科技  ·  中国离无现金社会还有多远?
7 年前
书法在线  ·  县长割麦子!(结局谁都没想到)
7 年前
Excel技巧精选  ·  Excel查找看似简单,却难倒大部分人
7 年前
刑事法律实务  ·  诈骗犯罪法律法规汇总(2017年版)
7 年前