点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
编辑:3DCV
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群。
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
3D视觉最新模组
、
3DGS系列(视频+文档)
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 背景简介
随着数字化世界的发展,空间数据已经成为人们认识世界并与其交互的关键要素。空间数据的主要特征是具有2D/3D空间坐标和与之关联的属性。空间预测(spatial predidction)利用空间数据来预测某一地点或区域的事件或某一具体属性,在环境监测、自然资源管理、交通规划等领域有着重要应用。
空间数据可以大致细分为矢量数据(vector)与栅格数据(raster):矢量数据包含点,线,面(point,line,polygon),其特征是具有精确的坐标值;raster数据类似于图片(高度* 宽度* 通道数量),每个数据点覆盖着一个空间栅格,数据源往往是卫星遥感图像或地图模型数据。
点(point)数据因其高效、简洁和易于获取等优势,广泛应用于各种地理空间分析和决策支持系统中。然而,尽管点数据的获取相对容易,在某些领域如环境监测中,精准的空间数据往往依赖于大型地面监测站点。这些地面站点往往稀疏且不规律地分布在城市中,其监测数据只能提供局部信息,而无法反映整体趋势。除此之外,地面站点的高精度数据稀少,不足以支撑深度学习算法的训练,极大地限制了深度学习算法在环境监测场景的应用。作为替代,小型传感器可以提供粗糙数据从而覆盖更广泛的区域。例如,台湾PM2.5监测利用三个来源的数据:地面空气质量监测站、AirBox传感器和台湾EPA空气质量微型站。
这种多样性对如何有效地集成多个数据源以提高预测精度提出了挑战:低成本传感器与地面空气质量监测站的数据质量不匹配,而且它们能够检测的指标种类也不尽相同。例如,某些污染物(如非甲烷碳氢化合物)只能由更先进的监测站进行监测。为了充分利用每个数据源的信息,设计专门的多源空间数据预测方法至关重要。为了应对整合不同数据源的挑战,本文提出了一个用于多源空间点数据预测的综合框架。该框架具有可学习的保真度分数,可以动态评估和适应每个信息源的数据质量。此外,本文还设计了一个地理位置感知的多源图神经网络,可以有效处理空间关系和不同数据特征的复杂性。本文在三个真实数据集和一个合成数据集进行了测试来验证框架的优越性。结果表明,本文的方法能够有效集成不同质量的数据从而提高预测准确性,从而能够在各种应用中实现更精确的环境监测和规划。
1. 论文信息
标题:Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction
作者:Dazhou Yu, Xiaoyun Gong, Yun Li, Meikang Qiu, Liang Zhao
机构:埃默里大学 Emory universtiy
原文链接:https://arxiv.org/abs/2407.00748
代码链接:https://github.com/dyu62/multisource-spatial-point-prediction
2. 摘要
多源空间点数据预测在环境监测和自然资源管理等领域至关重要,整合来自各种传感器的数据是实现整体环境理解的关键。该领域的现有模型由于其特定领域的性质而常常存在不足,并且在缺乏真实标签的情况下无法有效整合来自各种数据源的信息。主要挑战包括评估不同数据源的质量以及有效地建模它们之间的空间关系。为了解决这些问题,本文引入了一种创新的多源空间点数据预测框架,该框架可以熟练地对齐来自不同来源的信息,而不依赖于真实标签。本文使用保真度分数评估每个数据源可靠性。此外,本文开发了一种地理位置感知图神经网络,旨在准确描述数据点之间的空间关系。本文的框架已经在三个真实数据集和一个合成数据集上进行了严格测试。实验结果一致证明其优于现有最先进方法的性能。
3. 挑战与贡献
本文面对的挑战包括:
1)在没有真值的情况下在不同数据源之间对齐信息。任何一个数据源的信息都存在误差,即便是高精度的地面站,因此真值是未知的,需要整合所有数据源的信息尽可能逼近真值。
2)在不同质量的数据源之间对齐信息。必须量化不同源的质量,以防止高质量数据被来自低质量来源的噪声所污染。
3)在不同空间位置对齐信息。不同数据源采样位置各异,需要根据地理数据相关性原理考虑他们的的位置信息,以适应环境的动态影响。
针对以上三个挑战,本文的贡献包括:
1)提出了深度多源空间预测 (DMSP) 框架,以自监督的方式协调不同的数据源。
2)引入了保真度分数的概念,这是一个可学习的参数,用于量化每个数据源的质量,从而能够有效利用混合质量的数据。
3)提出了一种地理位置感知的多源图神经网络,旨在处理不同数据源之间的空间关系和特征异质性的复杂性。
4. 方法简介
空间预测的目标可以理解为最大化真值与预测值之间互信息,然而真值不可知。文章方法(Methodology)章节包含3小节:4.1节通过一系列数学推导,将最大化互信息的问题等价转换成最小化加权的损失函数,其中真值被目标变量的观察值代替,从而允许通用机器学习算法的训练。4.2节具体提出了针对多源空间点数据预测的DMSP框架的训练过程。DMSP为每一个数据源学习一个保真度分数作为权重参与预测和损失计算。对于每一个数据源的每一个观察值,DMSP轮流对其目标变量进行遮挡,然后利用未遮挡数据对遮挡数据进行预测,并计算输出值与遮挡变量的损失函数。在此过程中,每个数据源的每一个观察值都轮流作为目标参与模型拟合优化,整个过程可以看作n个数据源互相对齐的过程。图神经网络能够灵活处理不同的节点(node)数量并学习不同节点之间的关系,天然地适用于空间点数据的建模。4.3节基于图神经网络设计了一个适用于多源数据的架构。本文利用每一个数据源的位置信息分别进行图的构建,根据地理空间数据的相关性原理,本文对n个数据源建立n个K近邻(KNN)图,每一个数据源的图有与其对应的网络分支进行图卷积操作。本文的框架包含对位置信息的建模和结合了邻居信息的图卷积操作,其中位置信息的建模编码器由各个数据源共享权重,而每个图卷积算子根据其数据源的输入不同具有各自的权重甚至架构。最终目标位置对应的节点表征被输入到解码器中得到目标变量输出。本文的方法可以与任何现有的的图神经网络兼容,现有的网络可以作为图卷积算子为单一数据源进行节点表征学习。根据具体任务特征,使用者可以灵活设置图卷积算子以及是否采用共享的编码/解码器。
6. 实验验证
本文的数据集包括两个PM2.5数据集,一个流感数据集,和一个合成数据集。本文的对比方法主要包括两种基于机器学习的多源点数据预测方法与基于高斯过程的空间插值方法。有效性实验结果显示本文的方法在所有数据集上都取得了最好的表现。具体的数值和分析可以参阅原文中的表1和表2。
本文的消融实验主要探究了三个方面的问题:一是单一的数据源是否能够提供足够的信息。二是验证本文提出的由保真度分数加权的损失函数的有效性。三是对比了两种不同的位置信息编码器的效果。具体信息可以参考原文5.3节。
7. 总结 & 限制性
本文提出一种多源空间点数据预测的框架(DMSP)。利用自监督的训练方法和图神经网络的学习能力,本文的框架可以实现对多个数据源数据的对齐整合。在PM2.5预测,流感预测等数据集上的实验结果展示了其在真实世界中的应用潜力。
局限性。此框架可以与现有的图卷积算子灵活结合,对于不同的任务,应该存在不同的最优选择,出于通用化的考虑,文本并未对此进行深入探索。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、