该模型被命名为“时空密度回归”是因为使用了“密度回归”的概念和思想。首先,我们需要定义时空条件随机变量
X
|
U
,其中
U
是随机事件
X
的坐标,我们也将其看成一个随机变量。随机变量
X
在其坐标作为条件下的累计分布函数可以表示为
其中,
x
和
u
分别表示
X
和
U
的取值,函数
f
X
|
U
是随机变量
X
在条件
U
下的概率密度函数。
这里所说的位置,是指样本在“坐标空间”中的位置。坐标空间可以是地理坐标,也可以是地理坐标和时间坐标,具体地:
-
只包含经纬度的空间数据,坐标空间是平面坐标(x,y)
-
含有经纬度和时间的时空数据,坐标空间是(x,y,t)
-
含有起终点平面坐标的空间交互数据,坐标看是(ox,oy,dx,dy)
-
……
由于空间统计学的研究对象的坐标通常都和空间和时间有关,因此该模型被称为“时空密度回归”。
上述的概率密度函数通常无法用参数化的形式进行表达,因此我们考虑使用核密度估计这样非参数的方法对概率密度函数进行估计。根据Hyndman等人(1996)的研究可知
其中,概率密度函数
g
是
x
和
u
的联合概率密度函数,
h
是
u
的概率密度函数,
ĝ
和
ĥ
分别表示对概率密度函数
g
和
h
的核密度估计,具体的估计方法是
上两式中的
K
u
和
K
x
都是Borel函数,被称为“核函数”,
b
u
和
b
x
分别是这两个函数的参数,被称为“带宽”。因此,对分布函数
f
的估计为
其中,
w
j
(
u
)是样本
j
到
u
位置样本的权重。
通过核密度估计我们可以得到概率密度
f
X
|
U
的估计值,但这里得到的是随机变量
X
的完整的概率分布。一方面,得到完整分布并不容易,需要大量的对随机变量
X
的采样,而在同一位置上进行重复采样的空间数据并不多见。另一方面,通常我们更关心随机变量X的分布在空间上的变化情况,而并不关心完整的分布。
所以,我们研究随机变量X在坐标
U
条件下的期望值
E
(
X
|
U
)。该期望值是一个关于
U
的随机变量,可以看做坐标
u
的函数,被称为“空间期望”,记做
r
(
u
)。根据Nadaraya和Watson提出的“核平滑估计”方法,可得
其中
w
j
(
u
)是核密度估计中所定义的权重形式。
核函数的选择非常宽泛,但通常满足下面三个条件:
-
非负:
K
(
x
)≥0
-
对称:
K
(
x
)=
K
(-
x
)
-
在区间(-∞,∞)上积分为1
以下是一些常用的一元核函数。
但由于
u
是多元的,所以
K
u
是一个多元核函数。例如下图所示的是一个二元高斯核函数。
在一些情况下,我们难以用一个多元核函数来表达数据中的空间关系。在不同维度上,我们也会希望使用不同的核函数来描述这些维度各自的特点。密度回归的理论告诉我们,如果作为条件变量的
u
的各个维度
u
1
,
u
2
, ...,
u
m
互相独立,多元核函数
k
(
u
)就可以转换为多个一元核函数
k
1
(
u
1
),
k
2
(
u
2
), ...,
k
m
(
u
m
)的乘积。于是,我们可以通过单独设计每个一元核函数,再将这些核函数相乘,得到多元核函数
k
。