专栏名称: GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
相关文章推荐
完美Excel  ·  使用Trae编写Excel VBA程序初体验 ·  昨天  
完美Excel  ·  AI编程:安装Trae ·  2 天前  
Excel之家ExcelHome  ·  Excel按区间查询,其实很简单 ·  2 天前  
Excel之家ExcelHome  ·  学会几个常用Excel公式,办公更高效 ·  3 天前  
完美Excel  ·  deepseek+Excel轻松打造信息管理 ... ·  3 天前  
51好读  ›  专栏  ›  GISer last

论文快报:时空密度回归

GISer last  · 公众号  ·  · 2025-02-19 20:58

正文


摘要

空间异质性和相关性是地理数据的核心特征。传统的地理加权回归(GWR)及其扩展方法通过计算基于邻近性的权重来分析数据关系的异质性,但在处理高维数据(如时空数据、地理流数据)时存在局限。本研究提出了一种新的局部模型——地理与时间密度回归(GTDR),通过独立优化各维度的核函数带宽,避免传统综合距离度量的缺陷。模拟实验表明,GTDR在2D、3D和4D数据中均优于传统方法,能有效捕捉时空、地理流等多维数据中的异质性特征。


密度回归的基本原理


该模型被命名为“时空密度回归”是因为使用了“密度回归”的概念和思想。首先,我们需要定义时空条件随机变量 X | U ,其中 U 是随机事件 X 的坐标,我们也将其看成一个随机变量。随机变量 X 在其坐标作为条件下的累计分布函数可以表示为

其中, x u 分别表示 X U 的取值,函数 f X | U 是随机变量 X 在条件 U 下的概率密度函数。

关于“位置”

这里所说的位置,是指样本在“坐标空间”中的位置。坐标空间可以是地理坐标,也可以是地理坐标和时间坐标,具体地:

  • 只包含经纬度的空间数据,坐标空间是平面坐标(x,y)

  • 含有经纬度和时间的时空数据,坐标空间是(x,y,t)

  • 含有起终点平面坐标的空间交互数据,坐标看是(ox,oy,dx,dy)

  • ……

由于空间统计学的研究对象的坐标通常都和空间和时间有关,因此该模型被称为“时空密度回归”。


核密度估计

上述的概率密度函数通常无法用参数化的形式进行表达,因此我们考虑使用核密度估计这样非参数的方法对概率密度函数进行估计。根据Hyndman等人(1996)的研究可知

其中,概率密度函数 g x u 的联合概率密度函数, h u 的概率密度函数, ĝ ĥ 分别表示对概率密度函数 g h 的核密度估计,具体的估计方法是

上两式中的 K u K x 都是Borel函数,被称为“核函数”, b u b x 分别是这两个函数的参数,被称为“带宽”。因此,对分布函数 f 的估计为

其中, w j ( u )是样本 j u 位置样本的权重。

这样就得到了对概率分布 f 的核密度估计。


密度回归

通过核密度估计我们可以得到概率密度 f X | U 的估计值,但这里得到的是随机变量 X 的完整的概率分布。一方面,得到完整分布并不容易,需要大量的对随机变量 X 的采样,而在同一位置上进行重复采样的空间数据并不多见。另一方面,通常我们更关心随机变量X的分布在空间上的变化情况,而并不关心完整的分布。

所以,我们研究随机变量X在坐标 U 条件下的期望值 E ( X | U )。该期望值是一个关于 U 的随机变量,可以看做坐标 u 的函数,被称为“空间期望”,记做 r ( u )。根据Nadaraya和Watson提出的“核平滑估计”方法,可得

其中 w j ( u )是核密度估计中所定义的权重形式。

核函数

核函数的选择非常宽泛,但通常满足下面三个条件:

  • 非负: K ( x )≥0

  • 对称: K ( x )= K (- x )

  • 在区间(-∞,∞)上积分为1

以下是一些常用的一元核函数。


Gaussian

Bi-squared

Exponential

Tricube


但由于 u 是多元的,所以 K u 是一个多元核函数。例如下图所示的是一个二元高斯核函数。



在一些情况下,我们难以用一个多元核函数来表达数据中的空间关系。在不同维度上,我们也会希望使用不同的核函数来描述这些维度各自的特点。密度回归的理论告诉我们,如果作为条件变量的 u 的各个维度 u 1 , u 2 , ..., u m 互相独立,多元核函数 k ( u )就可以转换为多个一元核函数 k 1 ( u 1 ), k 2 ( u 2 ), ..., k m ( u m )的乘积。于是,我们可以通过单独设计每个一元核函数,再将这些核函数相乘,得到多元核函数 k


时空密度回归模型


地理加权回归(GWR)自从被提出后,由于存在只针对空间数据的限制,已经衍生出了众多的模型使其能够分析更多维的数据。比如:

  • 时空地理加权模型(GTWR)

  • 空间加权交互模型(SWIM)

  • 季节性时空地理加权模型(GcTWR)

这引发了我们的思考:能否设计一种模型,使之可以针对任意维度的数据做类似于GWR的回归呢?

根据前面所述的密度回归的理论,我们可以很容易地推导出“时空密度回归模型”。



模型原理和估计



假设 y 是因变量, x 是自变量, u 是坐标空间。如果 y x 的关系随着 u 的变化而变化,并且通过地理加权的方式满足“地理学第一定律”,就实现了我们的目标。虽然图中只画了一个坐标轴,但这里的 u 是多维的。

如果我们将 y X 之间的线性关系描述为

那我们希望得到的是 β u 条件下的条件期望 E ( β | u ),也就是回归系数的估计值







请到「今天看啥」查看全文