本文约2300字,建议阅读9分钟
eFAD 是一个有效的时间序列异常检测框架,能够在保护隐私的同时提供准确的异常检测性能。
随着移动感知技术的普及,各个领域产生和积累了大量的时间序列数据,在这种背景下,时间序列异常检测变得非常重要。然而,由于各种边缘设备的部署,时间序列数据都是分散收集的。为了弥合分散的时间序列数据和集中的异常检测算法之间的差距,来自中南大学等机构的研究者们提出了一个参数高效的联邦异常检测框架 PeFAD,以应对日益增长的隐私问题。目前,该论文已被数据挖掘顶级学术会议 KDD 2024 收录。PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detectionhttps://arxiv.org/abs/2406.02318https://github.com/xu737/PeFAD随着传感器和移动设备的增多,大量时间序列数据被分散收集,推动了时间序列应用的发展,如故障诊断和欺诈检测。时间序列异常检测旨在发现异常趋势或观察结果,这对于上述应用至关重要。随着对数据隐私的关注增加,数据提供者可能不愿意公开他们的数据,这就需要一种能够在数据分散和保护隐私的前提下进行有效异常检测的方法。现有的时间序列异常检测方法大多基于集中式数据训练,但在现实中,数据往往是分散收集的,在资源受限的边缘设备上进行训练存在一定的挑战。联邦学习能够提供一种在多个客户端上分布式训练模型的解决方案,并保持数据的分散性,这种方法有助于保护隐私并确保数据访问限制。但同时,开发联邦学习框架也面临以下3种挑战:- 数据稀缺:在联邦学习中,客户端的数据可能非常稀疏,尤其是异常数据。
- 忽视异常:现有的无监督方法在训练期间可能会忽视异常的存在,影响模型的异常检测能力。
- 数据异质性:不同客户端收集的时间序列数据通常是异构的,这使得难以获得一个全局模型来泛化到所有客户端。
为了应对上述挑战,该文的研究者提出了一个参数高效的联合学习框架,用于时间序列异常检测,解决了分散数据和集中式异常检测算法之间的差距。研究者首次将预训练语言模型(PLM)用于客户端本地模型,利用其跨模态知识转移能力来提高异常检测的性能。研究者在四个真实数据集上进行了广泛的评估,证明了 PeFAD 在集中和联合设置中都显著优于现有的最先进基线。PeFAD 框架由两大核心模块构成:基于 PLM 的本地训练和参数高效的联邦训练。以下是这两个模块的关键点总结:
PeFAD 利用预训练语言模型(如GPT2)作为客户端本地模型的基础。客户端将本地时间序列分割成非重叠的补丁,并通过 ADMS 策略进行预处理,以增强模型对时间序列复杂模式的理解。预处理后的数据输入到基于 PLM 的本地模型中,经过嵌入层、堆叠的 PLM 块和输出投影层,输出重构的时间序列。通过计算重构误差来识别异常点,并采用 PPDS 机制来缓解客户端间的数据异质性。为了提高模型对异常的敏感性,PeFAD 提出了一种基于异常的掩码选择策略。该策略首先在训练数据中识别异常,然后为这些异常分配更大的权重,使得模型在训练时更加关注这些异常点。并且结合了补丁内分解和补丁间相似性评估,以计算补丁的异常分数,从而捕捉时间序列的内在特征和模式演变。为了解决客户端间数据异质性问题,PeFAD 提出了一种隐私保护共享数据集生成机制。使用变分自编码器(VAE)合成隐私保护的时间序列数据,通过互信息约束和 Wasserstein 距离来保护数据隐私并确保合成数据的有效性。客户端将合成的数据汇总,形成所有客户端共享的数据集,然后通过知识蒸馏在共享数据集上进行本地和全局模型的训练,以实现更一致的模型更新。为了减少通信开销和本地模型适应成本,PeFAD 设计了一个参数高效的联合训练模块。PeFAD 采用水平联邦学习架构,由中央服务器和多个客户端组成。客户端的本地模型包括输入嵌入层、堆叠的 PLM 块和输出投影层。模型参数被分为可训练参数和冻结参数,其中大部分 PLM 参数被冻结,只有一小部分参数(如输入输出层和最后几层的特定部分)被微调。通过服务器和客户端之间的协作,实现了参数的高效聚合和更新,减少了计算和通信成本。在这篇论文中,研究者进行了一系列实验来评估 PeFAD 框架的性能,并与现有的时间序列异常检测方法进行了比较。实验使用了四个真实世界的时间序列数据集,分别来自大型互联网公司,eBay,SwaT,MSL。PeFAD 与多个基线方法进行了比较,包括传统的机器学习方法(如 OCSVM、Isolation Forest 等)和基于深度学习的方法(如Autoformer、Informer等)。此外,还将 PeFAD 与这些方法的联合学习版本进行了比较。
PeFAD 在联邦和集中设置下都表现出最佳的整体性能,并且在某些情况下,其性能超过了其集中式版本,这可能归因于联邦学习能够更好地捕捉本地数据的多样性。结果如下表所示:在 F1 分数和 AUC 两个指标上,PeFAD 在所有数据集上都显示出比基线方法更好的性能。在 SMD 和 PSM 数据集上,即使与集中式学习方法相比,PeFAD 也显示出最优的性能。实验结果表明,PeFAD 在联合学习设置中的表现比传统的集中式训练方法更具优势,尤其是在数据分散和隐私保护方面。研究者还进行了消融研究来评估 PeFAD 各个组件的有效性,例如不使用 PPDS 机制、不使用 ADMS 策略、不使用 PLM 等。结果如下所示:研究者还对 PeFAD 中的关键参数(如掩码比例、补丁长度、合成数据长度等)进行了敏感性分析,以确定最优的参数设置。总体而言,实验结果表明 PeFAD 是一个有效的时间序列异常检测框架,能够在保护隐私的同时提供准确的异常检测性能。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU