场所在空间分析中扮演着重要的角色,因此从现实世界数据中学习场所表示对于GeoAI理解地理环境至关重要。表示学习,也就是自动化的特征工程,旨在从原始数据中自动提取特征构成数据的表示。被提取到的特征往往被认为是观察到的现象背后潜在的影响因素。在GeoAI的语境下,本研究将场所表示学习定义为从地理大数据中自动提取特征形成场所的表示,这些特征通常可以解释场所的空间(例如,空间位置和空间层级)和非空间属性(例如,人口、社会经济、功能和活动体验等)。高质量的场所表示可以促进地理知识库的构建,同时促进社会经济指标预测、用地分类、POI推荐、流生成和预测等任务。
通常来说,全面理解场所需要多源大数据。一方面,不同的数据源关联的场所属性不同;另一方面,不同数据源对不同尺度的场所的刻画能力不同。本研究主要关注从空间交互数据中学习场所表示。
空间交互是指因为人们在空间上的决策过程而产生的移动或通讯。它通过人流、物品流、信息流等方式将场所进行关联,由此形成了嵌入地理空间的网络。通过分析场所在网络中扮演的角色可以帮助理解场所。在空间交互建模中,主要关注两类核心的变量,它们分别是场所特性(place characteristics)和空间阻抗(spatial impedance)。与起点的推力(propulsiveness)和目的地的吸引力(attractiveness)相关的场所特性促使了交互的产生,而场所间的空间阻抗(例如出行距离、出行时长、出行成本)则阻碍了交互的产生。当从空间交互中学习场所表征时,解释这两类核心变量的特征将被提取出来。其中,空间阻抗相关的特征可以部分解释场所的空间属性,推力和吸引力相关的特征则可以部分解释场所的非空间属性。
目前,从空间交互中学习场所表示的方法往往受启发于单词表示学习和网络表示学习。虽然得到的表示在部分任务上表现尚可,但是在空间交互的语境下,这些方法缺乏一个好的解释。此外,在对场所表示的验证方面,现有方法未系统性探索,提取到的特征是否能准确解释所对应的空间交互背后的影响因素。
本研究提出了一个从空间交互中学习场所表示的方法。该方法受启发于流分配的思想,该思想也是单约束重力模型关注的核心。由于现实世界上的交互对应的影响因素不同,且很难确定。因此,本研究先在基于重力模型生成的合成数据集上对方法进行验证,然后在多尺度真实数据上进行应用与辅助验证(整体流程如图1(A)所示)。实验证明,我们的方法可以很好地捕捉到解释场所特性和空间阻抗的特征。
图1. 方法。(A)流程示意图。先由(B)和(C)中所示的方法学习场所作为起点和终点时的表示。然后,通过使用LASSO回归将学习到的表示映射到目标变量(与地点推力/吸引力以及空间阻抗相关的变量)来进行验证。(B)根据(A)中的空间交互网络,计算流分配概率。(C)估算流分配概率的神经网络的架构。其中,起点表示为:
虽然现有的方法在模型解释上存在差异,但它们主要关注两个方面:从特定起点出发的流到达不同终点的概率以及到达特定终点的流从不同起点出发的概率。我们认为这可以从流分配的视角进行解释,这与总流出约束/总流入约束的重力模型的理念相一致。
总流出约束的重力模型主要关注,如何基于空间阻抗和终点吸引力,将从起点出发的一组流分配到不同终点。类似地,总流入约束的重力模型主要关注,如何基于空间阻抗和起点推力,将到达特定终点的一组流分配到不同起点。我们的方法受启发于这些模型,但解决的是相反的问题,也就是:如何基于流出和流入分配概率分布来识别解释空间阻抗和场所特性的特征?
(1)当神经网络准确估计流出分配概率分布时,终点表示应该包含有关空间阻抗和吸引力的特征。
(2)当神经网络准确估计流入分配概率分布时,起点表示应该包含有关空间阻抗和推力的特征。
如图1(B)所示为流分配概率的计算方式。给定 N 个场所间的流矩阵,表示如下:
则从特定场所 k 出发的流到达场所 j 的条件概率为:
到达特定场所 k 的流从场所 i 出发的条件概率为:
如图1(C)所示为估算流分配概率的神经网络的架构。将起点表示记为:
我们希望用神经网络估算出来的流入/流出分配概率和真实的流入/流出分配概率是一致的,因此有以下的优化目标,可通过梯度下降进行求解:
为验证学习到的场所特征是否能解释交互背后的影响因素,我们先在根据重力模型生成的流数据上进行方法验证,生成的数据如图2所示。在验证过程中,我们将数据按4:1划分训练集和测试集。在训练集上训练将场所表示映射到目标变量的LASSO回归模型,并报告测试集上的精度(实验结果如图3所示)。具体的实验细节和结果分析可阅读原文,这里主要讨论通过保持出流分配概率和入流分配概率一致分别能学到什么。
图2. 根据重力模型生成的交互数据。(A)场所推力的分布P~Lognormal(3,1)。(B)场所吸引力的分布A~Lognormal(3,1)。(C)根据重力模型生成的流(仅展示强度在前20%的流)。线条的颜色和粗细与交互强度成比例。
在实验中,我们希望终点表示通过出流分配任务捕捉到场所吸引力和空间阻抗相关的特征;起点表示通过入流分配任务捕捉到场所推力和空间阻抗相关的特征。
然而,受启发于一个网络表示学习方法LINE,我们的方法还存在另一个可能的解释。LINE中的二阶邻近性(second-order proximity)的大致想法是:拥有相近的context分布的vertex是相似的。类比到空间交互中,拥有相似空间交互模式(流分配概率分布)的场所,它们的表示也是相似的。具体来说,如果流出概率分布 Pi 和 Pj 相近,则场所 i 作为起点的表示 ui 和场所 j 作为起点的表示 uj 也相似。相应地,如果流入概率分布 Qi 和 Qj 相近,则场所 i 作为终点的表示 vi 和场所 j 作为终点的表示 vj 也相似。也就是说,保持估算的出流分配概率分布和真实的一致
也会提供起点推力相关的信息。同样,保持估算的入流分配概率分布和真实的一致
也会提供终点吸引力相关的信息。因此,我们设计了仅考虑保持流入或流出分配概率的实验,结果如图3所示。
图3. 不同优化目标下得到的不同维度场所表示的表现。(A-C)不同维度的表示对应的损失。(A)图为同时以出入流分配为目标的结果;(B)图为只考虑出流分配的结果;(C)图为只考虑入流分配的结果。灰色条带高亮的是32-128维的损失。(D-F)对于不同的表示维度,起点表示对不同目标变量的预测R^2值。结果展示了以流出和流入分配(D)为训练目标、仅以流出分配(E)为目标和仅以流入分配(F)为目标的情况。(G-I)和(D-F)类似,展示的是终点表示的结果。
结果显示,保持出流分配概率一致和入流分配概率一致都对学到的场所表示有显著影响。对于终点特征而言,当只保留出流分配概率分布一致时(即基于目的地吸引力和空间阻抗分配流量),只有终点表示能够显著预测吸引力的变量(图3(H))。起点的特征在一定程度上解释了推力的变化(图3(E)),但解释力有限。类似地,对于入流分配目标(即根据起点推力和空间阻抗分配流量),起点表示可以有效预测推力的变量(图3(F))。虽然终点特征可以部分解释吸引力的变化(图3(I)),但这些特征的解释力也有限。此外,只以出流分配或入流分配为目标将导致位置信息识别方面的性能不稳定。
然而,图3中的结果并不与“具有相似空间交互模式的场所倾向于具有相似的表示”这一假设矛盾。相反,它反映的是假设与采用的损失函数之间存在不匹配。因此,我们认为从流量分配的角度解释更合适。
我们将方法应用于2011年英国普查的通勤数据集,并在MSOA、LSOA、OA三个尺度进行实验,结果如图4所示。具体的数据介绍、实验细节和结果分析可以阅读原文。
图4. MSOA、LSOA和OA尺度的场所表示在不同维度下的实验结果。(A-C)不同维度的表示的损失。分别展示了MSOA(A)、LSOA(B)和OA(C)的结果。(D-F)不同维度下,起点表示对场所特性和空间位置变量的预测R^2值。分别展示了MSOA(D)、LSOA(E)和OA(F)的结果。(G-I)与(D-F)相同,但是关于终点表示的结果。
空间交互网络的形成在很大程度上取决于场所属性,也由此为我们提供了一条理解场所的途径。在本研究中,我们受流量分配这一领域知识的启发,提出了一个从空间交互中学习场所表示的可拓展的方法,并对方法的有效性进行了全面的评估。由于空间交互数据涵盖了对不同尺度场所的刻画,且不同类型的交互往往与不同的场所属性相关联,我们的方法同时为提取预训练场所表示提供了启发。
本研究还存在以下局限性,可以在以后的工作中进行探索:1)我们的方法在对空间阻抗变量的验证方面做了一些简化,不能考虑路网等因素的影响;2)目前方法得到的场所表示中的每个特征往往没有具体的含义,因此可以在以后的研究中探索如何识别一些可解释的特征(影响因素)。
参考资料
Wang, X., Chen, H., & Liu, Y. (2024). Learning place representations from spatial interactions. International Journal of Geographical Information Science, 1–26. https://doi.org/10.1080/13658816. 2024.2332908
本研究相关数据和代码已上传至GitHub:https://github.com/Xuechen0123/FlowAlloc_SI_placeemb
素材来源:S3-Lab
材料提供:王雪辰
内容排版:王志洋