专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
沉默王二  ·  太刺激了,腾讯今年新招7000人! ·  昨天  
51HR派  ·  加拿大给美式咖啡赐姓“加” ·  昨天  
传媒招聘那些事儿  ·  SMG上海广播电视台!新媒体运营中心内容运营编辑 ·  3 天前  
传媒招聘那些事儿  ·  【全职岗位表格】在线文档持续更新:新闻媒体/ ... ·  3 天前  
传媒招聘那些事儿  ·  【职业咨询】1V1模拟面试/语音答疑服务助力求职! ·  4 天前  
51好读  ›  专栏  ›  arXiv每日学术速递

AAAI 2025 | 基于信息瓶颈准则的联邦图数据压缩

arXiv每日学术速递  · 公众号  ·  · 2025-01-16 12:15

正文




AAAI 2025|基于信息瓶颈准则的联邦图数据压缩


题目:Federated Graph Condensation with Information Bottleneck Principles

会议:The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)

论文链接:https://arxiv.org/pdf/2405.03911

一. 摘要

图压缩(GC)通过合成小规模的压缩图来减小大规模图的尺寸,并且保持大规模图的效用,大大减少了存储和计算代价。然而,现有的 GC 方法依赖于集中式数据存储,这对于现实世界的分散式数据存储来说是不可行的,并且忽视了数据持有者的隐私保护要求。为了弥补这一研究空白,我们提出并研究了联邦图压缩(FGC)问题。具体而言,我们首先提出了一个 FGC 的通用框架,其中我们将 GC 的典型梯度匹配过程解耦为客户端梯度计算和服务器端梯度匹配,将来自多个客户端子图的知识融合到一个较小的压缩图中。然而,我们的实验研究表明,在联邦设置下,压缩图将持续泄露数据成员隐私,即在成员推理攻击(MIA)下,联邦训练期间的压缩图可用于窃取本地训练数据。为了解决这个问题,我们将信息瓶颈原理融入 FGC,它只需要在联邦训练前通过一个本地的预训练步骤提取部分节点特征,并在联邦训练期间利用这些特征,即可抵御MIA并且保持数据效用。理论和实验分析表明,我们的框架在训练期间能始终保护成员隐私。同时,它可以达到与现有的集中式 GC 和联邦图学习 (FGL) 方法相当甚至更好的性能。

二. 简介

由于内存和计算开销,图模型在处理现实世界的大规模图时会带来巨大的存储和计算开销,尤其当模型需要多次训练时,例如神经架构搜索 (NAS)和持续学习。一个从数据入手的解决方案是图压缩(GC),如图1(a)所示,它将大规模图压缩为小图,且保留了原始图的效用,方便图数据的存储和下游任务的计算。然而,现有GC的研究都持有一个基本假设,即图数据是集中存储的。而在现实世界中,整个图被分成由不同方持有的多个子图。例如,在医疗保健系统中,医院仅拥有患者(节点)、其信息(属性)和交互(链接)的子集。出于隐私方面的考虑,数据持有者不愿意共享他们的数据,许多严格的法规(如 GDPR)也禁止任意收集数据,这使得集中式 GC 不可行。近年来,联邦图学习 (FGL) 的出现使得可以在不暴露本地数据的情况下协作训练一个全局模型,如图 1(b) 所示。然而,它们仍然在大规模图训练中带来大量存储、计算和通信开销。因此,一个重要但尚未探索的领域是在联邦环境中考虑 GC。为了填补这一空白,我们研究了联邦图压缩(FGC)这一新问题,如图1(b)所示,旨在协作学习一个包含来自不同方数据知识的小图。之后,所有数据持有者都可以访问这个压缩图以用于下游应用。它存在以下两点挑战:(1)如何保持压缩图的效用?与集中式 GC 不同,在 FGC 中,整个图被分割成很多子图分布在数据持有者之中。因此,一些关键的跨客户端信息缺失,并且这些子图也存在严重的异质性,不可避免会降低压缩图的效用。(2)如何防止压缩图可能泄露本地图的成员隐私?与传统FGL 中图数据本地存储不同,FGC 中发布的压缩图可用于MIA 推断本地数据的成员隐私。此外,压缩图的可访问性使攻击者能够训练任意模型,使得传统的基于模型的 MIA 防御失效。

为了应对这些挑战,在本文中,我们研究了在联邦环境下的图压缩问题,并提出联邦图压缩框架 (FedGC)。主要贡献如下:(1)我们首次提出并研究了联邦图压缩问题,这是现实场景中重要且实际的一个问题。(2)我们为 FGC 设计了一个 FedGC 框架。它通过匹配来自客户端的加权梯度聚合来学习压缩图。我们进一步发现压缩图会持续泄露成员隐私,并基于信息瓶颈原理提出一种新颖的本地图变换方法来保护原始图。理论分析证明, FedGC 可以同时保持原始图的效用和成员隐私。(3)我们在五个真实数据集进行了广泛的实验,结果表明 FedGC 可以达到和集中式 GC 和 FGL 方法相当的表现,在大规模数据集中甚至比这些方法性能更好。同时,FedGC 在整个联邦训练过程中可以持续保护成员隐私。

三. 方法

在我们的setting下,对于 个客户端,整张图 被分割成 个子图 保存在相应的客户端中。FGC的目标是将这些子图压缩成一个小图 保存在server端,同时保持原图的效用和隐私。本节首先介绍保持效用的FGC通用框架,然后介绍保持隐私的本地图数据转换。

保持效用的FGC通用框架

根据经典的梯度匹配的图压缩方法,我们提出了一种分布式梯度匹配的算法。联邦训练每一轮客户端利用本地数据训练一个本地GNN模型,并将梯度上传到服务器。服务器拿到各个客户端的梯度进行聚合得到 。同时,在服务器端维护一个压缩图 ,服务器利用 训练一个GNN模型并得到梯度 ,然后最小化 的差异来更新压缩图 。如以下公式所示,

这里,由于联邦下图数据异质性问题,我们根据各个客户端的各个类别数量做了加权的梯度聚合。由于联合优化 很难,所以我们固定 使得分布和原始数据分布一致,并且假设 可由 导出。联邦图的另一挑战是信息缺失,因为一些节点和边是不可见的。为了缓解这一问题给压缩图效用带来的影响,我们根据之前的工作,利用同态加密在客户端之间安全地传输缺失的邻居聚合。此步骤只执行一次,并且只需最多两跳邻居的聚合信息就足够保护效用,所以并不会带来很大的计算和通信开销。同时,由于压缩图捕捉到了各个子图的通用知识,具有良好的泛化能力,但可能并不能捕捉到特定的图信息。所以不同于传统图压缩框架将压缩图直接训练一个图模型用于测试,我们提出将压缩图训练出的图模型分发到各个客户端,利用本地图数据对模型进行微调以捕捉本地图数据的特定信息,从而实现针对不同客户端数据的个性化。

保持隐私的本地图数据变换

基于上述框架,我们可以将多个大子图压缩为一个小图,而保持图数据的效用。然而,我们的实验研究表明,压缩后的图会暴露原始子图的成员隐私。我们记录了在训练过程中压缩后的图的效用和MIA攻击表现,如图3所示。可以发现,MIA 的表现随着压缩图效用的增加而提高,即压缩后的图会逐渐泄露原始子图的成员隐私。为了保护成员隐私,一个直观的想法是将原始子图变换成另外的图,然后用新生成的图来执行联邦图压缩。转换后的图应具备两个属性:(1)保持原始图的效用;(2)包含较少的原始图成员隐私。因此,受到信息瓶颈 (IB) 理论从原始数据中提取最小充分特征的启发,我们利用 IB 将原始图进行转换。整体流程如图 4 所示。

具体的,每个客户端旨在利用本地数据学习一个 IB 编码器来提取最小充分特征 : 。根据信息瓶颈准则,目标函数为: ,即最大化 与标签 之间的互信息,旨在保持转化后的图的效用,同时最小化 和原始节点特征 之间的互信息,使得转化后的图包含尽量少的原始图隐私信息。值得一提的是,每个客户端需在本地独自训练一个编码器来进行图转换,此过程不涉及客户端参数共享,因为如果攻击者知道了客户端的模型参数,就可以根据它掌握的相同分布的图数据来推断转化后的图,导致图转换失效。为了便于优化IB的目标函数,我们首先应该导出目标函数的上界,第一项的上界为:

第二项的上界为:

因此,本地图变换的目标函数为: 。和传统IB不同的是,我们这里考虑到计算和通信代价,不对图结构进行变换,而只变换图特征 。理论分析也会证明,此操作可以很好的保护数据隐私。接下来,我们将IB准则实例化为不同的神经网络结构:对于 , 我们首先假设 服从正态分布,利用一个两层的MLP和一次邻居聚合来实现,并且通过采样来得到

按照此方式, 可以实例化为 和正态分布 的差异(如KL散度);得到 之后,我们利用传统的GNN节点分类损失来实例化 :

对于每个客户端 ,经过本地图变换后,我们可以得到一个新的子图







请到「今天看啥」查看全文