KDD24 通用的多源空间点数据预测:以PM2.5预测为例
1. 论文信息
标题:Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction
作者:Dazhou Yu, Xiaoyun Gong, Yun Li, Meikang Qiu, Liang Zhao
机构:埃默里大学 Emory universtiy
原文链接:https://arxiv.org/abs/2407.00748
代码链接:
https://github.com/dyu62/multisource-spatial-point-prediction
2. 背景简介
随着数字化世界的发展,空间数据已经成为人们认识世界并与其交互的关键要素。空间数据的主要特征是具有2D/3D空间坐标和与之关联的属性。空间预测(spatial predidction)利用空间数据来预测某一地点或区域的事件或某一具体属性,在环境监测、自然资源管理、交通规划等领域有着重要应用。
空间数据可以大致细分为矢量数据(vector)与栅格数据(raster):矢量数据包含点,线,面(point,line,polygon),
其特征是具有精确的坐标值
;raster数据类似于图片(高度* 宽度* 通道数量),每个数据点覆盖着一个空间栅格,数据源往往是卫星遥感图像或地图模型数据。
点(point)数据因其高效、简洁和易于获取等优势,广泛应用于各种地理空间分析和决策支持系统中。然而,尽管点数据的获取相对容易,在某些领域如环境监测中,精准的空间数据往往依赖于大型地面监测站点。这些地面站点往往稀疏且不规律地分布在城市中,其监测数据只能提供局部信息,而无法反映整体趋势。
除此之外,地面站点的高精度数据稀少,不足以支撑深度学习算法的训练,极大地限制了深度学习算法在环境监测场景的应用
。作为替代,小型传感器可以提供粗糙数据从而覆盖更广泛的区域。例如,台湾PM2.5监测利用三个来源的数据:地面空气质量监测站、AirBox传感器和台湾EPA空气质量微型站。
这种多样性对如何有效地集成多个数据源以提高预测精度提出了挑战:低成本传感器与地面空气质量监测站的数据质量不匹配,而且它们能够检测的指标种类也不尽相同。例如,某些污染物(如非甲烷碳氢化合物)只能由更先进的监测站进行监测。为了充分利用每个数据源的信息,设计专门的多源空间数据预测方法至关重要。为了应对整合不同数据源的挑战,
本文提出了一个用于多源空间点数据预测的综合框架。该框架具有可学习的保真度分数,可以动态评估和适应每个信息源的数据质量
。此外,本文还设计了一个地理位置感知的多源图神经网络,可以有效处理空间关系和不同数据特征的复杂性。本文在三个真实数据集和一个合成数据集进行了测试来验证框架的优越性。结果表明,本文的方法能够有效集成不同质量的数据从而提高预测准确性,从而能够在各种应用中实现更精确的环境监测和规划。
3. 摘要
多源空间点数据预测在环境监测和自然资源管理等领域至关重要,整合来自各种传感器的数据是实现整体环境理解的关键。该领域的现有模型由于其特定领域的性质而常常存在不足,并且在缺乏真实标签的情况下无法有效整合来自各种数据源的信息。主要挑战包括评估不同数据源的质量以及有效地建模它们之间的空间关系。为了解决这些问题,本文引入了一种创新的多源空间点数据预测框架,该框架可以熟练地对齐来自不同来源的信息,而不依赖于真实标签。本文使用保真度分数评估每个数据源可靠性。此外,本文开发了一种地理位置感知图神经网络,旨在准确描述数据点之间的空间关系。本文的框架已经在三个真实数据集和一个合成数据集上进行了严格测试。实验结果一致证明其优于现有最先进方法的性能。
4. 挑战与贡献
本文面对的挑战包括:
1)在没有真值的情况下在不同数据源之间对齐信息。
任何一个数据源的信息都存在误差,即便是高精度的地面站,因此真值是未知的
,需要整合所有数据源的信息尽可能逼近真值。
2)在不同质量的数据源之间对齐信息。
必须量化不同源的质量
,以防止高质量数据被来自低质量来源的噪声所污染。
3)在不同空间位置对齐信息。
不同数据源采样位置各异
,需要根据地理数据相关性原理考虑他们的的位置信息,以适应环境的动态影响。
针对以上三个挑战,本文的贡献包括:
1)提出了深度多源空间预测 (DMSP) 框架,
以自监督的方式协调不同的数据源
。
2)引入了保真度分数的概念,这是一个可学习的参数,
用于量化每个数据源的质量,从而能够有效利用混合质量的数据
。
3)提出了一种地理位置感知的多源图神经网络,
旨在处理不同数据源之间的空间关系和特征异质性的复杂性
。
5. 方法简介
空间预测的目标可以理解为最大化真值与预测值之间互信息,然而真值不可知。文章方法(Methodology)章节包含3小节:
5.1节通过一系列数学推导,
将最大化互信息的问题等价转换成最小化加权的损失函数
,其中真值被目标变量的观察值代替,从而允许通用机器学习算法的训练。
5.2节具体提出了针对多源空间点数据预测的DMSP框架的训练过程。DMSP为每一个数据源学习一个保真度分数作为权重参与预测和损失计算。对于每一个数据源的每一个观察值,DMSP轮流对其目标变量进行遮挡,然后利用未遮挡数据对遮挡数据进行预测,并计算输出值与遮挡变量的损失函数。在此过程中,
每个数据源的每一个观察值都轮流作为目标参与模型拟合优化,整个过程可以看作n个数据源互相对齐的过程
。图神经网络能够灵活处理不同的节点(node)数量并学习不同节点之间的关系,天然地适用于空间点数据的建模。
5.3节基于图神经网络设计了一个适用于多源数据的架构。本文利用每一个数据源的位置信息分别进行图的构建,根据地理空间数据的相关性原理,本文对n个数据源建立n个K近邻(KNN)图,每一个数据源的图有与其对应的网络分支进行图卷积操作。本文的框架包含对位置信息的建模和结合了邻居信息的图卷积操作,
其中位置信息的建模编码器由各个数据源共享权重,而每个图卷积算子根据其数据源的输入不同具有各自的权重甚至架构
。