用数据来认识城市的三个阶段
我最近一直在思考的一个问题是,我们对城市的认识到底有多深刻?
举个例子,我们说城市最基本的构成,可能就是每一个地砖,而每块地砖的长度、宽度、厚度和材质,是可以测度出来的。同样的,一个地块里面有许多建筑物,我们也可以靠人力测度出地块的密度、容积率和建筑密度等参数。总体来看,只要样本数量不是很多,都是比较容易测度的。但是从城市的层面来看,一座城市中可能有几百平方公里的城市建设用地,其中包含了大量的地块、街道和建筑物,面对着如此庞大的样本量,我们该怎么来认识和测度城市?
传统上,我们认识规模比较大的城市,主要靠自下而上的上报统计数据。也就是说,从前我们认识城市主要靠政府的力量。但是由于年鉴是每年才更新一次,导致我们对城市认识的更新频率是非常低的,
是为用数据认识城市的第一阶段。
而现在这个时代诞生了许多新数据
/
大数据,这些
新数据让我们可以把城市当作一个实验室,使我们每分每秒都可以观察到城市的脉搏。所以我认为,现在是一个非常好的时代,我们第一次能够从比较细致的、高空间分辨率的视角来认识城市,这是我们这个时代的一个特点。作为研究者,我们终于可以通过大量的数据来观察城市的现状和模拟它的变化。
是为用数据认识城市的第二阶段。
但是与此同时也产生了一个疑问,我们对如此大规模的城市复杂系统的认识到底有多逼近呢?一直以来,每一个独立的城市研究工作都在宣称,我们的研究非常贴近于真实情况,我们做了验证等等。而客观来讲,我们做的够吗?真的能够把我们的城市用这些新的数据刻画出来吗?这是我长久以来的一个疑问。
解决这个问题,我认为应该是用数据认识城市的第三阶段。
说到这里,我想举一个最近让我很触动的例子。近年来我们实验室做了很多
收缩城市
方面的工作,包括收缩城市的识别、收缩城市空间表征的判读、收缩城市的规划设计干预等等。关于收缩城市的识别已经有很多学者都做了相关研究,有的研究发现中国有
180
个收缩
城市,有的研究说中国有
63
个
收缩城市等等很多版本。最近我们又重新用多种不同类型的数据做了中国收缩城市的识别工作,我们想回答用不同的数据来识别收缩城市的结果是不是相对比较稳定的。
于是我们设计了一个
对照实验
,实验所使用的数据
都是
2016年到2018
年
的,研究对象都是针对一个城市固定的空间范围,并且使用了同样的收缩城市识别标准。
具体的实验设计为,
我们分别用了修正后的
2016
年和
2018
年的
VIIRS-NPP
的
500
米精度的夜光影像
,因为有很多研究证明,
夜光影像可以反映人口密度、经济水平、社会经济的综合程度等等,非常适合用来研究收缩城市。
此外我们也用了百度的
LBS
(
location based service
、基于位置服务)大数据
,这个数据来自于和百度慧眼的合作,他们有很多证据
表明
LBS
数据与
地方统计部门的人口数据很匹配,也能真实地反映当地的人口规模。
我们使用的第三种数据是国际上一种公开的数据
L
and
S
ca
n
,它反映了全球
一公里网格尺度上的人口密度。
所以我们就用这三类数据,基于
同样的标准(阈值
-15%
)
、同样的研究范围
(中国所有
1
227
个实体城市)和
同样的时间(
2
016-18
)来做了一个实验,分别来识别中国的收缩城市。
最后的结果非常有意思。我们用
百度
LBS
识别出来中国
有
176
个收缩城市
,用
VIIRS-NPP
识别出中国有
199
个收缩城市
,用
L
and
S
ca
n
识别出中国
有
115
个收缩城市。
用这三类数据识别出的收缩城市数量差距不大,似乎用不同数据识别收缩城市的稳定性还不错。于是我们又进一步做了一个对比,看看用不同数据同时能识别出来的收缩城市有多少个。然而,我们发现用不同数据识别出的结果非常不匹配,所识别出的收缩城市中,分别有
5-30
个城市同时被两种数据识别出来。在这样的情况下,我们如何来认识我们的研究工作?到底是用哪套数据的研究成果更可靠,更接近于我们的真实情况呢?
所以概括来说,我们用数据来认识城市的第一个阶段,是靠以往的统计年鉴;第二个阶段,是利用一些新兴的大数据。当前这两个阶段已经发展成熟,现在则需要我们进入第三个阶段了。在第三个阶段中,我们或许可以很轻易地获得各种数据,但是在获得数据之后需要我们更加谨慎地进行评估,到底哪一种数据更可靠、更能反映我们真实的城市。
我认为,我们的城市科学实际上还处于一个非常初级的阶段,现阶段想要认识这么错综复杂的城市难度还非常大,我们最近的实验也反映了这种很大的不确定性。
所以
近年来我们一直在呼吁要成立科学共同体,比如说我们组织一个包含着不同学科的群体,多年一直持续地关注某个城市,并且用不同的数据和不同的方法,对城市的状态变化进行持续的跟踪,真正地把城市作为实验室来检验我们的理论、研究方法、指标标准等等,这是非常有必要的。
在疫情反复的当下我们得以有时间做这样的“无聊对比”。
我认为我们首先需要思考的是,
人居环境到底是什么?城市是什么?刚才我提到当前认识城市都非常的有难度,那么对于回答什么是健康的人居、怎么定义健康,这些同样很有难度。我们实验室最近和公共健康领域的很多学者进行了合作,我发现同样是研究健康城市,我们与公共健康领域的学者对城市健康的界定、所使用的研究方法和数据、所参考的理论依据等等都有太多的不一样了。所以我认为,我们只有先把最基本的问题解决了,才能够更好地讨论这个主题。
此外,未来的城市数据分析,我的视野中,应该是1 从城市中来,即主动采集城市数据,2 在实验室中进行分析研判,3 回到城市中去,从科学到政策,做一点改变,除了做游戏。