专栏名称: GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
目录
相关文章推荐
芋道源码  ·  老板爱瞎改权限怎么办:注解+AOP ... ·  昨天  
芋道源码  ·  Spring Boot集成iText实现电子签章 ·  3 天前  
芋道源码  ·  玩个锤子,两小时撸完日志链路串连方案 ·  4 天前  
51好读  ›  专栏  ›  GISer last

他山之石 | 基于网络权重矩阵的地理加权回归——以中国城市化驱动力数据为例

GISer last  · 公众号  ·  · 2024-12-02 21:20

正文

点击蓝字,关注我们


文章提要

地理加权回归(GWR)是一种用于处理空间非平稳性的经典建模方法,它结合空间范围内的距离衰减效应来拟合局部回归模型,其中距离定义为欧氏距离。尽管此定义已被扩展,但仍然侧重于物理距离。在全球化和信息化时代,物理距离可能无法反映真实的空间邻近性,GWR体现出明显的局限性。该文提出一种基于网络权重矩阵的地理加权回归模型(NWM GWR),其不依赖于地理位置建模,而是使用网络距离来测度两个区域之间的邻近性,并通过改进核函数来加权观测值,以实现距离衰减。此外,该文采用人口流动网络建立网络权重矩阵,利用网络自相关和 NWM GWR 方法对中国城镇化及其多维驱动因子进行建模。结果表明:NWM GWR模型比 OLS模型和 GWR模型具有更高的拟合精度和更好的稳定性,并能更好地揭示变量之间的关系,更适用于经济和社会系统的建模。

1 研究背景

GWR模型已被证明在解决空间自相关和空间非平稳性方面是有效的,并已被应用于环境治理、城市规划、土地利用及公共卫生等方面。该模型将数据的空间位置嵌入到回归参数中,允许估计和映射空间中每个位置的实际参数,并结合距离衰减效应来拟合和校准局部回归模型。囿于GWR在实际问题研究中的局限性,衍生出许多优化方法,例如多尺度地理加权回归(MGWR)、快速地理加权回归(Fast GWR)、四维地理加权回归(4D-GWR)等。

然而,作为GWR技术重要且独立的组成部分,距离测度在很大程度上被忽略了,通过欧氏距离很难测量复杂的地理空间。”流空间”发展背景下,远距离紧密联系现象日益突出,物理距离可能无法反映真正的空间邻近。尽管有学者试图通过丰富GWR模型的距离概念来解决这个问题,但距离指数的本质仍然类似于经典GWR模型中的物理距离。使用物理距离来测量空间邻近度无法捕获流空间中的区域关系,因此,该文使用网络距离来度量区域之间的邻近性。以中国城镇化驱动力的经典研究为例,利用迁徙流数据构建省际人口迁移网络。然后分析了网络依赖性,利用基于地理距离的GWR模型,提出了以网络距离为核心的NWM GWR模型,揭示了中国城镇化水平与其驱动力之间关系的空间异质性。

2 研究区及数据

研究区域为中国31个省级行政区。采用的研究数据为中国省级行政单位之间的流数据和省级社会经济数据。省级人口流动无向加权网络如图1。

图1 中国区域省际人口流动网络

中国城镇化的驱动力归结为四个方面:行政力、市场力、外力和内力(表1)。以城镇化率作为因变量。

表1 城市化的驱动力及其代表性指标

3 研究方法

3.1 网络距离

基于迁徙流网络计算网络距离,并将其归一化至0到1之间。 绘制欧氏距离和迁移流的散点图(图2)以分析网络距离与物理距离的关系。结果表明网络距离和欧氏距离不是相互排斥的,而是在一定的空间尺度内具有协同关系。

图2 迁徙流和欧氏距离

3.2 网络自相关

使用全局Moran’s I和局部Moran’s I来计算网络自相关。

3.3 基于网络加权矩阵的地理加权回归(NWM GWR)

该文提出NWM GWR模型,将网络结构嵌入到回归模型中,以克服GWR模型在呈现空间关系方面的局限性。NWM GWR模型原理如下:

式中,βik代表采样点 i 的第 k 个自变量的局部回归系数;与 GWR 模型不同,直接影响采样点参数估计的不是地理位置,而是网络距离。网络距离是采样点与网络结构中其它观测点的相对距离。鉴于此,NWM GWR 模型的关键优势在于权重矩阵的构建过程。如图3 所示,网络中每个回归点的权重仍遵循距离衰减效应。

图3 NWM GWR 模型中每个回归点的权重

网络权重矩阵是一个相似性矩阵,因此 NWM GWR 可以通过改进核函数来应用于网络权重矩阵。改进的核函数示意图如图4。

图4 改进的核函数

图5总结了NWM GWR模型的框架。NWM GWR模型在GWR代码(Oshan 2017)的基础上进行了改进,并在Python软件上实现。

图5 NWM GWR 模型

选取决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)、校正赤池信息准则(AICc)等测试指标来评估模型的性能。

4 研究结果

4.1 网络自相关分析

对因变量城市化率进行网络自相关分析,确定城镇化率在网络结构中呈现类似或非类似集聚的分布特征。表2表明中国的城市化空间存在显著差异。

表2 中国省级行政区域的城镇化水平

测算空间自相关和网络自相关的全局 Moran's I 以及相应的统计检验 Z 值,结果表明:中国城镇化水平具有显著的正空间自相关效应和正网络自相关效应。网络自相关的 Moran's I 低于空间自相关的 Moran's I,这可能与全局Moran's I 测量整个空间序列的空间聚合有关。

图6 局部Moran's I,四个象限

局部 Moran's I 散点图(图6)验证了上述推测。在图6(a)中,约四分之三的省级行政区域集中在第一象限和第三象限,表现出类似集聚的局部正空间自相关。在图6(b)中,超过五分之四的省级行政区位于第一和第二象限。只有云南、青海、西藏和甘肃处于第三象限。除了自身城市化水平低下外,它们还与其他城市化水平低的地区有着密切的联系。计算 Moran's I 的显著性检验 Z 值,并列出通过检验的省级行政区域(表3)。在空间自相关方面,西藏和新疆通过统计检验,形成了显著的 HH 聚合;在网络自相关方面,天津和西藏通过了统计检验,分别形成了显著的 HH 和 LL 集聚。

表3 局部Moran's I,天津、西藏和新疆自治区

4.2 空间交互模型

上述结果表明中国城镇化水平具有网络自相关效应。为进一步探究中国城镇化的驱动机制,建立了 OLS、GWR 和 NWM GWR 模型来拟合城镇化率。图7 显示了城市化驱动力因子的贡献得分。

图7 中国各省城镇化驱动因子得分和城镇化率

4.2.1 OLS

基于 OLS 模型,评估城市化率与 4 个驱动因子的全局关系,结果如表4。R 2 为 0.786,拟合度较高。综合 F 统计量为 22.887,显著性检验表明模型的因变量与解释变量之间存在显著的线性关系。每个驱动因子的方差膨胀因子(VIF)值远低于 7.5,表明驱动因子之间不存在多重共线性,也无需删除冗余变量。但行政力系数未通过显著性检验,城镇化率与市场力、外力、内力呈显著正相关。根据各变量的系数,解释变量对区域城市化的驱动作用力排序如下:市场力>内力>外力。

表4 OLS模型结果

4.2.2 NWM GWR 和GWR

基于 OLS 模型结果,建立 GWR 和 NWM GWR 模型。模型设置如表5。

表5 GWR 和 NWM GWR 的模型设置

4.2.3 模型整体性能比较

表6显示了三个模型的性能指标和统计测试结果。

表6 OLS、GWR 和 NWM GWR 的模型结果

GWR-AG、GWR-AB、NWM GWR-FIG、NWM GWR-AIG、NWM GWR-AIB、NWM GWR-FIE 和 NWM GWR-AIE 的 p 值小于 0.05。因此,结果具有统计显著性,表明拟合回归关系具有显著的空间非平稳性。在此基础上比较模型性能指标,GWR 和 NWM GWR 模型的 AICc 值均低于 OLS 模型。拟合度 R 2 显著增加,而 MAE和 RMSE 均有所下降,这表明 GWR 和 NWM GWR 模型的拟合性能优于 OLS 模型。NWM GWR 模型的 R 2 相比GWR 进一步提高,AICc 值,MAE 和 RMSE 相应降低。在 NWM GWR 模型中,固定核比自适应核具有更大的 R 2 ,但同时,AICc 也更大。这可能与本文构建的人口流动网络明显的核心—外围结构有关。

NWM GWR-AIB模型的 AICc 为 -91.751,低于 OLS 模型和 GWR 模型。它们之间的差异大于3,R 2 高达 0.887。这些结果表明,NWM GWR 模型具有最佳的性能,其在准确描述城市化率与影响因子之间的关系方面做得最好。







请到「今天看啥」查看全文