数据集预览
这次给大家预览的数据我选了两个子集:一是北京随机某处;二是云南随机某处
(即我根本不知道实体地域在哪就随便一拖出现的数据)。
在数据集预览的过程中,我使用的底图是
天地图
(论文团队用的0.3-1m/500像素X500像素
Google Earth影像
)。
为什么不用Google Earth影像?
因为我没有。
同时,分别预览1
:20000、1:10000、1:5000三个尺度的下的数据集表现。
首先是云南某地:
然后是北京某地:
在空间形态上的横比即可发现两点:
一是北京某地的空间形态呈现效果整体比云南某地好很多,这可能是影像源造成的;
二是
空间形态效果在1:20000的比例尺下效果很好。而在1:5000的比例尺下北京某地的
空间形态呈现尚可,而云南某地的空间形态呈现就相对没那么好。
回看训练数据,使用的
0.3-1米/500X500像素的Google Earth卫星影像数据。经过简单的换算,大概适合的比例尺在1:2000-1:5000的区间内。目前看来在
空间形态上要应用到这个比例尺区间内可能还差一些。
但不可否认的是
数据集覆盖中国3667个实体城市,包含3100万栋建筑、236亿平方米屋顶面积及3630亿立方米建筑存量。
能做到这个程度已经很惊艳了。最重要的这个是个
开源数据集,源代码和模型大家都可以下载来研究。
空间形态先告一段落
。
转过头来,我们再
来看看数据集的
字段
:
字段中包含
建筑高度、建筑功能、建筑年代以及建筑质量
。
建筑高度是
通过激光雷达扫描、遥感影像分析及多源数据融合的XGBoost等预测得到
的。据原文所说,建筑
在150米以下建筑中表现优异,但超高层建筑(>150米)仍存在系统性低估。我在图上找了一些我比较熟悉的位置进行比较,建筑高度的偏差不大,在中观层面是可以使用的。
建筑功能是
结合POI密度、地块特征与多模态模型(如CLIP)识别。
具体在数据集成果里面
则是分为了六大类:分别是
公共服务(
Public service)、商业(Business)、
居住
(
Residence
)、
办公
(
Office
)以及其他(Other)
。
建筑年代则是
通过安居客
房产交易数据匹配与高分辨率卫星影像时间戳推算生成,分为了
1993年以前(部分存在具体年份)、1994-2001年、2002-2009年、2010-2018年以及2018年之后(AF2018)。
建筑质量基于街景图像通过YOLOv8模型检测外立面破损等指标评估生成的。但其在字段中的呈现内容,我有些看不太明白
M
的意思,知道的可以评论区告诉我。
目前看来这个数据集大部分还是挺好的,可以说能用。
不过批量提取难免会存在一些问题,毕竟没办法精校这么大的量。比如,我选的北京某地附近的一块数据集,就出现了这样的问题:
相信这样的问题只是在少数地方存在。
02