荐语:今天给大家推荐一篇刚刚Online在
Transactions in Urban Data, Science, and Technology(TUS)
刊物上的文章。
大家可能对这个刊很陌生,
Transactions in Urban Data, Science, and Technology(TUS)
是一本跨学科、国际化、同行评议的期刊。力求以中国为重点,发表关于“新的城市科学”和“新城市的科学”的创新性城市分析研究。期刊在区域和比较语境下分析中国城市和研究中国城市化。
期刊关注但不限于以下主题:智慧城市/基础设施、颠覆性技术驱动的未来城市、城市建模、规划/设计支持系统、使用新兴技术的大数据和相关分析、人工智能、物联网、可穿戴设备及其在城市研究和城市规划中的应用研究。期刊接受小到建筑尺度,大到全球尺度等各种尺度的研究。
期刊主编为
龙瀛(清华大学)
;副主编为
沈尧(同济大学)
、
王江浩(中国科学院地理科学与资源研究所)
、
张帆(北京大学)
、
周江评(香港大学)
。
文章题目:
Cross-platform complementarity: Assessing the data quality and availability of Google Street View and Baidu Street View
作者
团队
:
王磊
,
张天霖,何捷
*,Martin
Kada
*
发表时间:
2025.2.11
DOI:
https://doi.org/10.1177/27541231241311474
代码链接:
https://github.com/LandscapeWL/SHAPClab_Quality-and-Availability-of-GSV-BSV
在当今大数据与人工智能高速发展的时代,利用街景图像(Street View Imagery,SVI)来研究城市形态、居民生活、环境健康乃至城市规划等问题,已成为一项前沿性应用技术。文章主要探讨的是两大主流 SVI 数据源—Google Street View(以下简称GSV)与百度街景(以下简称BSV)在
数据质量和可用性方面的比较研究
。
研究背景:
1. 研究领域基础:
街景图像数据作为全球最直观、最丰富的城市实景数据之一,为城市建成环境的测量、城市景观的量化以及空间大数据分析提供了可靠数据来源。自2007年 GSV 推出以来,其全天候、全覆盖的图像资
料就被广泛应用于城市规划、城市安全、绿色基础设施、步行性分析、经济发展等领域。随着百度街景数据在中国城市中的逐步覆盖和普及,越来越多的研究工作开始尝试将这两种平台的数据结合使用。然而,
不同平台在采集方式、参数设置、数据时效性、空间覆盖
以及
图像视觉特征
等方面存在差异,
给数据融合和跨区域比较带来了挑战
。
2. 研究问题和意义:
在国内外相关文献中,虽然有大量关于如何利用单一SVI 数据源开展城市研究的工作,但对于如何在
全球尺度上联合使用不同数据源(尤其是 GSV 与 BSV)的系统性比较与校准
,尚缺乏一个统一标准和完整框架。文章指出,两个平台由于受政策、采集手段和覆盖区域差异的影响,使得数据诸多基本参数(如影像分辨率、采集间隔、时间覆盖范围、图像参数等)不能直接对比,甚至在表征城市环境要素(如建筑、绿化、天空)的相似性指标上也存在不小分歧。为此,文章提出了
一种
基于元数据爬取和深度学习语义分割相结合的 SVI 数据采集和比对框架
,旨
在弥补现有 SVI 应用中数据质量评估的不足,为全球城市地理信息系统(GIS)研究以及城市规划、设计实践提供理论及方法层面的支持。
总体而言,本研究的意义主要体现在以下几个方面:
① 构建了一个统一的、跨平台的 SVI 数据采集与比对标准框架。
② 针对数据采集方法以及参数设定,提出了基于元数据“蜘蛛网”扩展的采集策略,有效减少遗漏和冗余现象。
③ 利用深度学习方法对图像中的建筑、绿化和天空等视觉元素进行提取,通过统计分析与相关性检验,验证了在相同地理区域内两种数据源在视觉信息表达上的高度一致性;
④ 为后续大规模数据联合应用、跨时空城市比较以及基于图像信息的城市建模等研究提供重要参考和实验依据。
通过这篇文章你可以了解如何最严谨的采集街景数据。更加了解谷歌街景和百度街景数据。欢迎交流与合作。
研究简介:
谷歌街景(
Google
Street
View,GSV)
和
百度街景(Baidu
Street
View,BSV)
是应用最为广泛的街景数据源。GSV在世界上绝大多数城市有分布,但不包含中国大陆。BSV补齐了这一短板。
中国香港特别行政区(
SAR)
同时包含这两类街景数据
。
以
香港特别行政区为研究区域
,
开发了一种
基于搜索导向的
街景图像
采集方法
,使用
SQLite数据库管理超过70万
个街景元数据
并进行对比实验,采用深度学习方法对数据进行处理并提取两种
街景数据
的视觉元素,从
时间覆盖范围
、
数据获取效率
、
获取重复性
、
视觉元素相似性
等方面对两种
街景
的数据质量和可用性进行了全面比较。
由于
GSV和BSV由不同地图服务商提供存在一定数据差异,导致其在联合使用及研究中缺乏统一的标准。这项研究首次完整的对比了两种街景的数据质量和可用性。本研究打通了GSV和BSV的使用瓶颈,释放了数十亿街景的使用价值,使得街景研究能够在全球尺度上衔接和不同数据源间对比使用。
图
1
使用
SVI
的城市研究迅速增加。迄今为止(在
2024
年
4
月
检索期间
)发表的论文数量表明,它将继续呈上升趋势,超过
2023
年。
(
a
)
按年份包含相关关键词的论文
;
(
b
)按国家
/
地区划分包含相关关键词的论文
;
(
c
)按类型包含相关关键词的论文
图
2
街景地图在世界上的分布。
(
a)
谷歌街景在世界上的分布
; (b)
百度街景在世界上的分布
; (c)
谷歌街景在香港的分布
; (d)
百度街景在香港的分布
.
图中谷歌地图来源
https://www.google.com/maps/
,百度地图来源
https://map.baidu.com/
我们提出了一种街景采集方式,可以不漏掉城市空间中的任何一个街景图像。这种采集方式只保存了街景元数据不会保存对应街景图像。这对于评估街景采集间距能够提供基础数据和帮助。每个街景图像在服务器中都拥有唯一序列
ID
,所以可以根据唯一序列号访问到街景图像。对于单一坐标的请求还会返回同一街道相邻街景图像的
ID
信息。百度储存形式是通过单个街景图像坐标获得元数据,同时可以获得这条道路上相邻所有街景图像的序列号。当街景图像位置位于交叉路口,则可以获得相邻路口街景图像的序列号。谷歌则是直接返回街景图像所在道路相邻所有街景图像的序列号,不会划分为道路和交叉路口。
我们编写程序设定了一个起始点(
longitude
:114.15739539598744,
latitude
:22.283968941984877
),这个起始点位于城市的中心区域道路上。通过起始点访问
Baidu
和
Google
平台获得元数据。在元数据中解析相邻街景图像的
ID
。保存起始位置
ID
和相邻位置
ID
。在下一次循环中随机取剩余未采集过的
ID
进行元数据采集,并检查返回结果是否已经保存过。随后重复以上两步的过程。由于这一过程涉及了大量的读取、写入、删除、搜索的操作。程序使用了轻量级高可靠性的
SQLite
数据库进行数据管理。
如图
3
所示
,这样可以通过类似蜘蛛网的方式,随着迭代轮次的增多逐渐扩大并采集到所有的街景元数据信息。这样可以解决传统采集方式的街景遗漏,缺点是数据采集量极大。但我们仍然可以用这些元数据用来评估传统方式存在的误差。需要注意的是本研究所有街景数据采集时间均截止到
2
023
年
1
2
月完成。
图
3
GSV和BSV元数据临近信息的蜘蛛网采集方式
GSV
和
BSV
的采集参数对照
表
1
GSV
和
BSV
采集参数对照
参数
|
GSV
|
BSV
|
水平视角
|
yaw
|
heading
|
俯仰视角
|
pitch
|
pitch
|
焦距
|
thumbfov
|
fovy
|
宽度像素
|
w
|
width
|
高度像素
|
h
|
height
|
全景图缩放尺寸
|
zoom
|
z
|
图
4
GSV和BSV焦距设置及视野范围
图
5
GSV和BSV全景视图和透视图
表
2
GSV
全景视图街景采集尺寸参数表
参数
|
X
方向数量
|
Y
方向数量
|
瓦片数量
|
瓦片尺寸
|
图像像素
|
zoom=0
|
1
|
1
|
1
|
512×512
|
512×256
|
zoom=1
|
2
|
1
|
2
|
512×512
|
1024×512
|
zoom=2
|
4
|
2
|
8
|
512×512
|
2048×1024
|
zoom=3
|
8
|
4
|
32
|
512×512
|
4096×2048
|
zoom=4
|
16
|
8
|
128
|
512×512
|
8192×4096
|
zoom=5
|
32
|
16
|
512
|
256×256
|
8192×4096
|
表
3
BSV
全景
视图街景
采集尺寸参数表
参数
|
X
方向数量
|
Y
方向数量
|
瓦片数量
|
瓦片尺寸
|
图像像素
|
z=1
|
1
|
1
|
1
|
512×256
|
512×256
|
z=2
|
2
|
1
|
2
|
512×512
|
1024×512
|
z=3
|
4
|
2
|
8
|
512×512
|
2048×1024
|
z=4
|
8
|
4
|
32
|
512×512
|
4096×2048
|
z=5
|
16
|
8
|
128
|
512×512
|
8192×4096
|
表
4
GSV
和
BSV
透视图长宽比例和像素上限
长宽比例
|
GSV
像素上限
|
BSV
像素上限
|
1
:1 = 1
|
768×768
|
1024×1024
|
4
:3 = 1.3
|
1024×768
|
1024×768
|
3:2 = 1.5
|
1024×682
|
1024×682
|
1
6:9 = 1.7
|
1024×576
|
1024×576
|
图
6
GSV和BSV的长宽比例设置
图
7
GSV和BSV的时间丰富度
图
8
过大和过小的采集间隔会造成
街景数据
的缺失和重复
图
9
GSV和BSV的时间分布
图
5
GSV
不同间隔下采集有效
/
无效
/
重复数量
Interval
|
Totality
|
Invalid
|
Valid
|
Valid(%)
|
Duplicate
|
Duplicate(%)
|
Google_5m
|
2,634,743
|
1,255,500
|
1,379,243
|
52.3483
|
248,176
|
17.9936
|
Google_10m
|
1,363,432
|
645,963
|
717,469
|
52.6223
|
139,257
|
19.4095
|
Google_20m
|
732,478
|
342,669
|
389,809
|
53.2178
|
78,437
|
20.1219
|
Google_30m
|
525,675
|
242,633
|
283,042
|
53.8435
|
56,448
|
19.9433
|
Google_40m
|
424,921
|
193,510
|
231,411
|
54.4598
|
46,034
|
19.8927
|
Google_50m
|
365,224
|
164,495
|
200,729
|
54.9605
|
40,001
|
19.9279
|
Google_100m
|
253,019
|
109,080
|
143,939
|
56.8886
|
30,437
|
21.1458
|
Google_200m
|
207,265
|
85,518
|
121,747
|
58.7398
|
27,702
|
22.7537
|
图
6
BSV
不同间隔下采集有效
/
无效
/
重复数量
Interval
|
Totality
|
Invalid
|
Valid
|
Valid(%)
|
Duplicate
|
Duplicate(%)
|
B
aidu_5m
|
2,634,743
|
1,116,827
|
1,517,916
|
57.6115
|
241,700
|
15.9231
|