随着信息技术的飞速发展,大数据已成为理解和分析旅游现象的重要数据源和分析方法。传统的旅游研究数据来源,如调查、酒店记录和博物馆参观数据,往往无法提供游客在城市中活动的详细位置信息。而大数据,如互联网搜索、GPS日志、银行卡交易、手机活动记录、社交网络数据等,为补充这些传统数据源提供了丰富的信息。游客在大多数活动中都会留下数字“足迹”,这些新的数据可以被分析以研究行为模式。然而,尽管大数据在旅游业中的应用潜力巨大,但将大数据应用于考察城市游客空间分布的文献却很少,这可能是由于这些信息源较新且部分难以获取。本期数据应用专栏,给大家带来2018年发表在
《Tourism Management》
期刊上的
《Tourists' digital footprint in cities: Comparing Big Data sources》
,让我们一起学习思考如何基于社交媒体数据,来识别城市中游客的不同活动(观光、消费和社交联系)中的存在情况。
本文
核心方法
为
游客密度分析
,对城市游客的空间行为进行分类,识别城市中游客的不同活动(观光、消费和社交联系)中的存在情况。
本文通过比较Panoramio、Twitter和Foursquare三种地理定位数据源来识别城市中游客的不同活动(观光、消费和社交联系)中的存在情况。它旨在提供对游客位置的全面分析,并揭示不同数据源在反映游客行为方面的互补性和冗余性。此外,该研究还旨在通过整合不同数据源的信息来表征游客集中的区域,并根据活动类型对其进行分类,希望能够更全面地理解游客的空间行为模式。
(1)旅游密度图和描述性统计
图1显示了根据人口普查区绘制的游客密度图,其中包含重新缩放的数据,三幅图中的间隔相同。Panoramio(图1a)清楚地显示了游客在历史中心和城市南北轴线(Paseo de La Castellana)的高度空间集中。密度最大的区域是指城市中的观光景点,例如西贝莱斯广场、阿尔卡拉门广场、太阳门广场、马约尔广场、皇宫、德博德神庙、西班牙广场、索菲亚王后博物馆、阿托查站、格兰维亚街、皇家马德里和马德里竞技体育场、拉斯文塔斯斗牛场、托雷斯桥、夸特罗·托雷斯等。一些普查区的照片密度很高,不是因为它们本身就包含一个观光景点,而是因为它们为拍摄位于相邻普查区的观光景点提供了一个很好的有利位置。禁止在一些纪念碑内拍照解释了包含这些纪念碑的人口普查区(例如普拉多博物馆和皇宫)照片密度相对较低的原因。
游客在消费活动中的数字足迹(图1b)在历史中心特别密集,在较小程度上在周边地区(例如,萨拉曼卡区被称为黄金地带的奢侈品商店区)也特别密集。它也偶尔被一些购物中心(如AZCA中心)或单一场所(皇家马德里体育场)的存在所解释。最后,根据推特(图1c)确定的游客密度更加分散。它在历史中心和卡斯特拉纳大道轴线沿线特别高,往往分布在大量的人口普查区。
根据数据来源(表1)对游客密度进行的描述性统计表明,推特上的游客数量远远高于其他两个来源中的任何一个,因此有理由对这三个变量进行重新调整。Foursquare数据的变异系数表明,如地图所示,消费活动表现出最高的空间集中度。
图1丨游客密度根据 a)Panoramio,b)Foursquare,c)Twitter.
(2)数据源比较:OLS分析
为了确定三个分布之间的关联程度,计算了每对数据源之间的决定系数(表2)。二元回归的标准化残差揭示了数据源存在最大差异的地方(图1)。
相关性分析表明,推特Foursquare数据源提供的游客密度之间存在中等正相关。Panoramio-Twitter和Panoramio -Foursquare数据源提供的游客数量之间的相关性较低,表明互补性更强。这三个数据源之间的主要差异可以通过回归分析中变量之间的残差来分析:
(a)根据Foursquare和Twitter的数据,Panoramio在历史中心和城市主要观光景点(足球场、斗牛场、雷蒂罗公园、托雷斯桥、四座大楼商业区、德博德神庙)的游客比预期的多(图2a和2b中的正残差),但在市中心周围的游客比预计的少(负残差)。
(b)根据Twitter的数据,Foursquare在历史中心、萨拉曼卡区、AZCA购物和商业中心、拉瓦瓜达大型购物中心、皇家马德里体育场和阿托查站显示的游客人数比预期的多(图2c),但在中心地区游客人数比预期的少。
表2丨根据数据源(OLS)的游客分布决定系数(调整后的r2)
图2丨二元回归的标准化残差:a) Foursquare-Panoramio; b) Twitter-Panoramio; c) Twitter- Foursquare.
(3)根据旅游活动划分的空间类型:聚类分析
聚类分析使普查区能够根据每项活动(观光、消费或互联网活动)的游客密度进行分类。使用K-means算法和重新缩放的密度值计算聚类。表3显示了每个组的平均值和标准偏差,平行箱图总结了组及其内的变量(图3)。图4显示了所建立的6个组的空间分布:
(a)以观光游客为主的人口普查区组:第6组(咖啡)和第2组(红色)。差异是基于游客数量的强度。第6组包含在Panoramio有大量游客、Twitter和Foursquare用户的地块,对应于斗牛场、阿尔卡拉拱门、阿托查荣耀塔和西班牙广场等空间。第2组还包括与观光相关的地块,但游客数量较少:德博德和雷蒂罗神庙的公园、皇宫及其周边地区、马德里竞技体育场、阿托查车站以及托雷斯桥和夸特罗托雷斯等独特建筑。
(b)与消费相关的以游客为主的人口普查区组:第5组(紫色)和第3组(绿色)。第5组包含历史中心(Gran Vía,太阳门广场)最具商业价值的地块,根据Twitter和Panoramio的数据,这些地块也有很多游客。第3组包括与消费者活动和推特相关的游客密度较高的地区,但与Panoramio相关的地区要少得多。这些对应于历史中心(除了最商业的地区),推特的专业化程度向外围下降,萨拉曼卡黄金地带、AZCA等商业区和市中心的零售空间。
(c)与互联网活动相关的游客占主导地位的人口普查区组:游客人数较少的第1组(蓝色)占据了历史中心的范围。
(d)游客较少的人口普查区:第4组(黄色)。这些是城市中的非旅游空间,通常对应于周边人口普查区。
(4)空间自相关分析
空间自相关性允许对每个普查区的数据进行分析,而不是孤立地分析(如前一小节所述),而是与环境中的普查区数据相关联。使用距离阈值为500米的IDW(逆距离加权)程序,全球莫兰指数在所有情况下都显示出正的空间自相关性(正莫兰I值),Panoramio的自相关性低于Twitter和Foursquare(表4)。Anselin Local-Moran的I统计量揭示了空间聚类分布(在0.01水平上显著)(图5)。HH人口普查区(变量中的高值被同一变量中的高值包围)往往在Foursquare(历史中心和萨拉曼卡区)的情况下形成一个集群(图5b),但在地理位置照片中形成几个集群(历史中心、皇家马德里体育场、托雷斯桥-夸特罗-托雷斯)(图5a)。
图 5 LISA分析结果(距离阈值=500m)a) Panoramio,b)Foursquare,c)Twitter
对之前的单变量分析结果进行了交叉引用,以纳入来自三个数据源的信息。图6显示了综合考虑三个数据源的HH集群的人口普查区分类。当一个人口普查区成为三个来源中家庭集群的一部分时,这表明在500米半径内,观光、消费和上网的机会密度很高。因此,与使用双变量LISA分析相比,这种交叉引用提供了更完整的多变量LISA视觉。结果显示,在三个数据源(历史中心)中,或仅在其中一个数据源中,构成HH集群一部分的人口普查区——例如,在专门从事观光的地区(如拉斯文塔斯斗牛场)、消费的地区(萨拉曼卡区)或两者兼而有之的地区(AZCA购物和商业中心)。总的来说,由此产生的地图显示了旅游专业化如何从历史中心向外辐射:中心的人口普查区具有混合特征(多功能),周围环绕着通常有两项活动的其他地区,而最外围的地区往往专注于一项活动。
该研究的研究区域为西班牙首都马德里,这是一座游客数量较多的欧洲城市,选取了三种不同的地理定位数据源来反映城市中的不同旅游活动:Panoramio(观光)、Foursquare(消费)和Twitter(社交联系),Panoramio用于分析游客的观光活动,通过上传的地理标记照片识别游客的景点。Foursquare通过用户的签到记录数据来追踪游客的消费活动,包括购物和餐饮。Twitter分析游客的在社交网络上的活动数据,以了解他们在城市中的连接性和互动。研究共收集了307,062张Panoramio照片,经过筛选,识别出27,573张照片为游客拍摄(即存在游客标签的照片);234,159条Twitter推文(其中20,076条为Foursquare签到),其中Foursquare这些签到主要用于分析游客的消费活动,包括他们在餐馆、商店和娱乐设施等场所的停留时间和消费行为,利用Twitter这些推文分析游客在城市中的在线行为,尤其是如何与其他游客或居民互动。需要对这些数据进行清洗和标准化处理,然后通过这些数据进行比较和综合分析,识别出游客的活动模式。