案例二:
利用人群移动分析中国鬼城情况。
问题描述:
如何利用人群移动时空大数据来分析和发现中国“鬼城”,深层次分析“鬼城”成因?
2010年《时代》杂志刊登过一组鄂尔多斯市康巴什地区的照片:那里伫立着大量的崭新民居,还有被设计成文化地标的壮观建筑群,然而却人迹罕至,遂称之为 ghost city。自那之后,中国“鬼城”问题见诸世界各大媒体,甚至有美剧将鄂尔多斯设定成一个隐藏着不能说秘密的地方。
2015年,《Ghost Cities of China》一书的作者Wade Shepard将“鬼城”定义为:一种能量严重不足的新型发展状态,一个人口和商业机构严重少于其原本所能容纳的体量的地方。
从这个角度上说,住宅空置率就成为最简单直接的“鬼城”衡量标准。然而,尽管很多媒体都报道过某些中国城市的住宅类房屋空置的区域(下称“住空区”),但称这些地区为“鬼城”是不准确的,因为这类报道的结论通常以图片呈现或者统计亮灯率的方法得出,因准确率低、无法验证而备受质疑。那么,中国“鬼城”的真实面目是怎样的呢?又如何高效地进行研究呢?
挑战:
全国范围内高质量的房地产数据和人口数据是很难获取的,使得大部分报道只知其表,不知其里,通过报道图片来推测。
具体到这项研究上,首先要确定数据的性质:一是使用百度定位技术APP的数据,一是相关住宅区域的兴趣点(POI,Point of Interests)数据。定位数据的信息包括用户ID、经纬度、时间点。其中,用户ID全部匿名化,以保证隐私安全。POI数据包括该地点的名称、经纬度和类别(普通住宅还是别墅)。这些高精度的数据所覆盖的时间长度为2014年9月8日至2015年4月22日,每日的数据量可达数十亿;地理范围的广度为全国。这些数据特性可以在一定程度上反映出人口密集度,即该研究的重点。
然后,通过这些数据再去发现并界定住空区。这不光要看当地居住人口,还要计算两个变量:用户的具体住宅地点和住宅区的位置。在这里,吴海山他们采用了一种叫作DBSCAN的算法确认用户具体的住宅地点。同时,利用POI数据区分出房屋类别,把那些一公里内有别墅的住宅区的POI数据剔除出去,因为靠近别墅的人口密度本来就低于普通住宅楼,再加上那些别墅很有可能是刚刚建成的,本来也没什么人居住。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
完成了上述两步之后,研究人员将全国划分为数个100m×100m的网格进行人口统计。具体方法是,以每个小区的POI数据点为中心,挑选出5×5个(共25个)网格,再从中挑出人口最多的6个。如果这6个网格里的人口数量之和小于300人,即推断为住空区。同时,吴海山的团队还把和的值设定为大于60,以排除新建住宅区。实际上,这些被发现的住空区就是我们平时所说的“鬼城”。
对住宅POI所在的格子外扩500米*500米(小区平均大小),即25个格子,求人数最多的6个格子的人数总和。如果人数总和小于300人,则认为是空置住宅区。
没有住宅小区的边界数据,有的POI点在住宅小区的中心位置附近,有的在小区的边界,最极端的情况是在两个小区的交界位置。
这种情况下,只有6个格子会在小区内,所以我们选6。
中国的平均容积率为1,人均住房面积为30平方米。
那么100米*100米的格子可以居住的人为333人。
我们的数据有770百万个用户,而中国有13亿人。
所以一个格子平均有188个百度用户。
我们定义一个格子内小于1/4的用户数为住宅控制区,那么6个格子大约是300个。
研究人员选出了20个拥有大量住空区的城市,民众可前往以下网址查看:http://bdl.baidu.com/ghostcity/。可以看出,中国的“鬼城”大多分布于东部的二三线城市,具体来看,又基本都分布在城市的边缘地带或者新建城区。例如著名的鄂尔多斯“鬼城”就是一个新建城区——康巴什新区。还有天津滨海新区、郑州郑东新区、沈阳全运村等。这一类“鬼城”都是由于城市规划不合理或者过于超前造成的,还有一类“鬼城”属于旅游景区的城市,旅游淡季到来时就会出现“季节性空城”,如山东乳山、江苏如皋、海南琼海等。这两类“鬼城”的真实性也都被媒体报道或当地信源验证过。
当然,由于成因不同,“鬼城”并非一成不变。随着当地经济的发展和政府的适当引导,有些“鬼城”也能变活。例如郑东新区,如今已经通了地铁,居民数量也在增加。
乳山是一个旅游城市,拥有长达21公里风景秀丽的海岸线,因为海滩沙子洁白如银,因此获得“银滩”之名。因此该地区的大部分房地产是季节性住宅,人们购买是为了度假。康巴什位于鄂尔多斯市中南部,是鄂尔多斯市市委市人民政府驻地。
在比较了这两类有同样巨大的住空区、成因却完全不同的两个城市的时空大数据之后,研究人员发现了一些有趣的现象。例如,康巴什的人口变化周期以周为单位,而乳山不是;当康巴什的人口下降时,乳山的人口却在增加。我们可以理解为,这两个城市的功能不同,康巴什主要是工作地点,而乳山则主要是度假地点。
这些数据还凸显了“鬼城”所在地住-工分离的现实。例如,乳山银滩的工作场所明显少于市中心,相应地,居住人口也少于市中心。这也说明,一个新建的城市,尽管漂亮整洁,但并不能天然地吸引人们迁入,因为基础设施和工作机会要比建筑本身来得更加重要,那些才是留住居民的关键。
总结:
正如Wade Shepard所说,建造一个新城市容易,但要让它真正运转起来则需要长久的努力。