地理学第一定律认为,空间上越邻近的地理事物越相似。基于这一定律,地理学家提出了很多量化这种空间关联的方法。然而,这些传统方法仅对静态的空间变量适用,难以满足时空大数据的分析需求。尽管后续研究进一步发展了测度时空关联的方法。然而,“将区域变量的时间变化过程视为一个整体”的地理过程视角并未得到足够重视,尚未发展出对时空大数据普适的、可泛化的地理过程空间关联的概念模型和测度方法。
为此,本研究在空间自相关视角下,围绕“什么是地理过程的空间关联?”,“如何测度和表达地理过程的空间关联”两个问题,构建了表达地理过程空间关联的概念模型,定义了正向关联、负向关联和无关联模式,并根据时序相似性提出了测度地理过程的全局和局部空间自相关的空间关联分析方法。
研究团队与南京师范大学的一众学者共同完成了该研究成果,并以“Spatial association measures for time series with fixed spatial locations”为题,近期在国际地理信息科学顶级期刊《International Journal of Geographical Information Science》上发表。
这项研究提出了具有普适性可推广的测度地理过程空间自相关的方法,将地理学第一定律这一思想的工具化实现拓展至地理过程,为时空数据探索性分析提供了新的方法和工具,丰富了地理信息科学的理论和方法体系。
论文引用格式:
Jinzhao Guo, Haiping Zhang*, Xiang Ye, Haoran Wang, Yu Yang, Guoan Tang. (2024). Spatial association measures for time series with fixed spatial locations. International Journal of Geographical Information Science, 1–25.
DOI:https://doi.org/10.1080/13658816.2024.2445185
地理过程
的概念容易与
空间过程
相混淆。因此我们明确界定了地理过程的定义。
在空间统计学领域,空间过程是指地理事物或现象在不同空间位置上的变化模式或分布规律,强调导致空间分布和格局产生的机制和因素。
我们所说的地理过程,是地理学视角下的过程,而非空间统计学视角下的过程。因此,
本研究中的地理过程指的是地理事物或地理现象随时间推移而发生的时空演变过程
。
在明确了地理过程的定义后,我们便可以关注如何泛化和表达地理过程。地理学领域有大量的研究涉及地理过程,例如自然地理学领域的水文过程、陆面过程等以及人文地理学领域的人口迁移过程、城市扩张过程等。根据这些地理过程的空间位置是否发生变化,我们可以将地理过程的概念进一步细分(如图1所示):
如果空间位置不发生变化,那么这种地理过程可以使用具有固定空间位置的时间序列进行表示,这种数据模型将时间维度视为一个整体,能够很好地反映同一位置地理事物和地理现象的属性随时间的变化规律;
如果空间位置发生变化,这种地理过程可以使用轨迹或地理流进行表示,这种数据模型蕴含了地理事物发生位置变化的起点和终点(有时也包括途径点)信息,反映了其空间移动过程。
本研究中的地理过程使用
空间时序
(Spatial time series,
STS
)来表示。
空间时序是指具有固定空间位置的时间序列
,如图2所示,它从简单数据结构演化而来:对于一个不具有时空信息的标量,当它具有了空间位置便成为了空间数据,当多个标量分别对应多个不同时刻时,便产生了时间序列数据;当一个标量具有时间和空间两个维度的信息时,就有了时空数据;而当时间序列数据拥有固定的地理位置时,空间时序便诞生了。
本研究对空间时序设定以下限制条件:
① 每个空间时序在整个观测期间保持恒定的空间位置;
② 在整个观测周期内,所有空间时序都存在,即所有空间时序的开始和结束时间相同;
③ 为简单起见,空间时序中的变量仅限于数值型数据;
④ 空间时序的时间步长不必等长,只需每个采样时刻对齐即可。
空间时序同样具有空间邻接关系,由于其空间位置固定,因此空间时序的空间邻接关系可以继承自其所对应的点或面数据的空间邻接关系,如图3所示。因此,空间时序的空间邻接关系也可以使用空间权重矩阵进行描述和记录。
空间时序同时继承了时间序列数据模型和基本空间数据模型,这一特性决定了空间时序在GIS建模中具有强大的扩展潜力,并在基于时空大数据的地理过程建模中具有非常广阔的应用前景。
地理过程的空间关联性很早就应用在了地理学研究中。从20世纪初开始,水文学家为了探究森林水文效应进行的流域对实验即应用了地理过程的空间关联性,如图4所示。他们采用控制变量的方法,选择两个空间上邻近且面积、形态、地质、气候和土地利用等较为相似的小流域作为实验对象(Andreassian, 2004)。由于这两个流域在空间上邻近,因此它们更有可能具有相似的水文过程。基于这一假设,水文学家在经过初步观测校准后人为改变一个流域的植被覆盖情况,即可观测植被改变对流域水文过程的影响。
图4
探究森林水文效应的流域对实验(Hewlett, 1982)
上述案例将地理过程空间关联的存在作为开展实验的前提条件,可见地理过程空间关联的重要性。然而,长期以来始终缺少定量评估地理过程空间关联的普适性方法。
图5展示了目前研究时空数据的三种视角,分别是“时间维度离散、空间维度离散”的时空立方体视角,“时间维度离散、空间维度连续”的多时态面板数据视角以及“时间维度连续、空间维度离散”的空间时序视角。
现有大多数关于时空关联的理论和方法研究集中于第一种视角,发展出了时空莫兰指数、时空G统计量等分析方法。在第二种视角下有大量的应用研究,它们往往对多期数据分别计算莫兰指数等传统空间关联指标,得到不同时刻的空间关联情况。这两种视角均把时间维度视为离散,忽视了地理过程的时间连续性和整体性,导致最终的测度结果仅捕获了时空数据的几个“快照”,而在“快照”视角下,观察到的空间关联模式随着时间的推移可能失效。因此,这两种视角均不能作为评估地理过程空间关联的合适角度。
空间时序视角将时间维度视为一个整体,以时间序列的形式很好地保留了地理过程所具有的时变特征。遗憾的是,地理学领域的学者们并没有意识到空间时序作为一种理解地理过程的重要时空数据模型的潜在价值。该视角下仅有的几项有关空间关联的研究多面向领域应用,没有发展出对于时空大数据普适的、可泛化的地理过程空间关联的概念模型和测度方法。
为了赋予地理过程空间关联合理的内涵,在构建地理过程空间关联的概念模型时需要同时考虑不同关联模式的地理学意义和统计学意义。从“把时间维度视为一个整体”的地理过程视角来看,如图6所示,两条时间序列之间的关系是复杂的,可能会出现一条曲线始终高于另一条曲线的情况,也可能出现两条曲线此消彼长的情况。因此,仅使用数值的“高”“低”等术语已经难以表现时间序列复杂的时变特征,需要从时间序列相似性的角度对此进行描述。
从空间邻近性和时间序列相似性的角度出发,我们提出了地理过程空间关联的概念模型。图7定义了正向关联、负向关联和无关联模式。
① 正向关联模式是指一个空间时序被其他具有相似时变特征的空间时序包围;
② 负向关联模式是指一个空间时序被其他具有不相似时变特征的空间时序包围;
③ 无关联模式是指一个空间时序与其邻近空间时序不存在显著相似性。
从空间邻近性和时间序列相似性的角度出发,我们构建了测度地理过程空间关联的方法框架。使用空间邻接矩阵反映空间时序的邻接关系,使用时间序列相似性测度方法计算时间序列之间的相似性程度。
我们从全局G统计量的形式中得到启发,将其中两个变量的乘积替换为两个空间时序之间的相似性,将对应的空间权重替换为空间时序的空间权重,得到测度空间时序全局空间关联的计算公式。
随后,我们基于随机重置方法推导了该统计量的显著性检验公式。对于假设检验,零假设为空间时序不存在空间关联,备择假设为空间时序存在正向或负向空间关联。由于推导过程较为复杂,在此不再赘述,请感兴趣的读者自行阅读原文。
我们从局部G统计量的形式中得到启发,将其中的单个变量替换为两个空间时序之间的相似性,将对应的空间权重替换为空间时序的空间权重,得到测度空间时序局部空间关联的计算公式。
随后,我们基于随机重置方法推导了该统计量的显著性检验公式。对于假设检验,零假设为空间时序不存在空间关联,备择假设为空间时序存在正向或负向空间关联。由于推导过程与局部G统计量类似,在此不再赘述,请感兴趣的读者自行阅读原文。
需要指出的是,由于测度的对象是相邻空间时序之间的相似度,因此不同于G统计量只能测度正向空间关联(热点/冷点),本研究提出的统计量可以同时测度正向与负向关联,如图8所示。
为了验证本研究提出方法的准确性和有效性,我们制作了一个人工数据集进行试验,如图9所示。每个格子对应一个时间序列。通过人工控制这些空间时序的相似程度,可以得到具有不同空间关联模式的区域。使用提出的测度方法进行计算,如果得到的空间关联模式与真实模式相同,则说明我们提出的方法是合理有效的。
使用本研究提出的方法,我们测度了人工数据集的局部空间关联。如果出现了以种子为中心的四个不同规模的正向关联区域,则可以证明本研究提出的局部空间关联测度是合理的。如图10所示,局部测度揭示了三个以种子为中心的正向关联区域。测试结果与预期一致,证明了局部空间关联测度方法的有效性。
在测度局部尺度的空间关联后,我们将588个格子分成大小相等的12个区域以测度每个区域内的全局空间关联。图11展示了12个区域的划分方法、每个区域中49个空间时序的局部空间关联情况以及每个区域的全局空间关联情况和z得分。
区域5和区域6具有最低的z得分,说明这些区域里的空间时序整体是负向关联的。区域4和区域12表现出较强的正向空间关联,这与局部层面上得到的结果一致。
区域3和区域11都包含一些相似的空间时序,但空间关联测度结果却并不显著。这可能是因为正向与负向关联的空间时序出现在同一个区域内时会发生“中和”。正如全局G中热点和冷点同时出现时测度结果不显著一样,全局S在面对正负空间关联同时出现的情况同样束手无策。
值得注意的是,即使区域11比区域10包含更多相似的空间时序,区域10的全局z得分仍高于区域11。这可能是因为区域10中的一些空间时序较区域11而言相似度更高,因此“中和”效应并不显著,才会出现这种意料之外却又情理之中的现象。这也表明我们提出全局测度对空间关联的最大程度比较敏感。
本研究展示了地理过程空间关联的两个应用案例,分别是自然地理学领域的空气污染物浓度变化过程和人文地理学领域的人口流动过程。
对于空气污染物浓度变化过程,我们选取中国15个省(自治区、直辖市)作为研究区域,选用2018年1月1日至4月30日的PM2.5浓度数据作为实验数据,如图12所示。每个地级市都被视为一个空间统计单元,使用分区统计工具计算地级市每日PM2.5浓度均值,通过这种方式得到了每个城市的时间序列。
对于人口流动过程,我们使用2015年4月7日上海市外环高速以内区域的出租车上下车点数据,生成相同大小的正六边形面元作为最小统计单元,然后以1小时为时间间隔汇总每个统计单元内出租车上下车点的数量,最后聚合一天24小时的所有数据,如图13所示。
我们测度了这两组数据的全局和局部空间关联,局部测度结果如图14所示。对于空气污染物浓度变化过程,全局测度结果相当显著,为0.0389,z得分为28.49,指示空气污染具有正向关联模式。大多数城市的局部空间关联测度结果同样非常显著,特别是对于华北平原、四川盆地和长江中下游平原的部分地区而言,局部测度的显著性水平更是高于99%。
对于人口流动过程,全局测度结果也呈现出高度的正向关联。对于出租车上车点数据,全局是0.0044,z得分是36.23。对于下车点数据,全局是0.0044,z得分是40.08。因此,正向空间关联十分显著。局部结果表明,上海市中心的大多数出租车上下车点空间时序都呈现出显著性水平高于99%的正向关联模式,只有少数空间时序是负向关联模式。负向关联模式中,有些空间时序落在了公园或水域等出租车不可到达的区域,有些则可能是出租车上下车人数很少的区域。
为了便于用户使用本研究提出的方法,我们基于ArcGIS Pro进行二次开发,编写了对用户友好的脚本工具,如图15所示。
图15
测度地理过程空间关联的ArcGIS Pro脚本工具
注意事项:
① 目前工具仅支持矢量点或面数据,空间时序以多列的形式存储在要素的属性表中,每一列代表一个时刻的数据;
② 为了保证局部结果计算结束后可以自动进行符号系统设置,请保证“LocalSiPoint.lyrx”和“LocalSiPolygon.lyrx”位于工作目录下;
③ 在选择时间序列字段时,请务必保证按照时间顺序依次选取;
④ 全局测度结果可在工具完成后的“消息”界面查看结果;
⑤ “Number of permutations”指的是计算显著性时进行随机重置的次数。如果选择0,则默认按照原始数据满足正态分布的情况直接计算显著性,随机重置次数越多,显著性计算结果的精度就越高,但需要的计算成本也越高,因此需要在两者之间取得平衡。