专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

SAAI：利用异常同步性确定多变量时间序列中的理想异常类别数量

数据派THU · 公众号 · 大数据 · 2025-02-07 17:00

正文

来源：时序人
本文约2100字，建议阅读5分钟
聚类通常被用来从未标记的数据中分组相似的异常行为。

聚类通常被用来从未标记的数据中分组相似的异常行为。然而，在没有真实标签的情况下评估聚类质量是一个挑战，因为现有的评估指标（如轮廓系数 SSC）仅评估簇内的内聚性和簇间的分离性，而忽略了数据的先验知识。

德国的研究者引入了同步异常一致性指数（SAAI），该指数利用多变量时间序列中异常事件的同步性来评估聚类质量。实验展示了最大化 SAAI 在确定相关时间序列中真实异常类别数量K的任务上比 SSC 提高了0.23的准确率，比 X-Means 提高了0.32。此外还证明了通过最大化 SAAI 获得的聚类结果比 SSC 更容易解释。

【论文标题】

Anomalous Agreement: How to find the Ideal Number of Anomaly Classes in Correlated, Multivariate Time Series Data

【论文地址】

https://arxiv.org/abs/2501.07172

【论文源码】

https://gitlab.com/dlr-dw/saai

论文背景

检测和分类异常系统状态对于复杂系统的有效监控和控制至关重要。不幸的是，由于异常事件的稀有性，以及在现实世界应用中几乎没有或非常有限的标记数据可用，监督分类方法常常效果不佳。因此，聚类被用来从未标记的数据中推导出相似异常行为的分组。

评估通过聚类算法应用于异常子序列或推断特征所得到的解的质量是具有挑战性的，原因有以下几点：

没有真实标签来确定解的质量；
数据中真实的聚类数量通常是未知的；
解高度依赖于所选择的特征空间嵌入。

此外，经典的无监督聚类质量度量评估簇内的内聚性和簇间的分离性，但不包含关于数据的任何先验知识。

基于此，研究者探究了以下问题：在聚类这些变量中的异常事件时，如何利用信号之间的相似性？

SAAI 基于这样一个原则：在多变量时间序列中，多个相似变量中同时（即同步）出现的异常事件应该属于同一个类别。该工作提供了该度量有效性的证据，并表明最大化 SAAI 优于最大化 SSC 和 X-Means 算法（K-Means 的一个变体，用于确定理想的K值）。

论文方法

01、同步异常一致性指数（SAAI）

为了评估聚类结果的质量，这里引入了同步异常一致性指数 SAAI。该方法的核心思想是利用多变量时间序列中信号的先验知识。假设信号之间足够相关，那么在不同通道中同时（即时间对齐）出现的异常事件应该被分配到同一个聚类中，因为它们很可能代表同一种异常类型。

1. 关键定义

时间序列和子序列

时间序列 T 是一个包含时间戳和数据点的序列，可以是单变量或多变量。子序列是时间序列中的连续子集。

异常子序列

异常子序列 A 是指在时间序列中被异常检测算法标记为异常的子序列，通过异常评分函数 s(⋅) 和阈值确定，并且由满足特定异常分数函数阈值的子序列构成，

同步异常子序列

如果两个不同变量中的异常子序列在时间上有足够的重叠（由阈值 θ 控制），则认为它们是同步的。同步异常子序列是在不同维度且时间重叠超阈值的异常子序列对，是中在同一簇的子集。

2. SAAI 的计算及优势

SAAI 由两部分组成：同步异常在同一个聚类中的比例，以及一个正则化项，用于惩罚聚类数量 K 和只包含单个异常的聚类（伪聚类），参数 λ 用于平衡这两部分的权重。公式如下：

SAAI 考虑了异常事件的同步性，这在多变量时间序列中是非常重要的先验知识。正则化项可以防止聚类结果过于碎片化（即出现大量小聚类）。

02、合成数据集

为了验证 SAAI 的有效性，研究者创建了一个合成数据集，模拟 EDEN ISS 照明控制系统（ICS）的温度测量数据。该数据集具有以下特点：

1. 基础信号：

周期性信号，模拟 ICS 的常规温度变化，包括夜间、日出、白天和降温阶段。
加入了红噪声以模拟传感器噪声。

2. 异常注入：

注入了6种不同类型的异常，包括长峰值、短峰值、夜间下降、白天下降等。
异常的开始时间、持续时间和强度都具有随机性。

3. 同步异常比例：

通过参数控制同步异常与非同步异常的比例，从而模拟不同水平的信号相关性。

实验结果

1. 增加异常类别数量 K：

当 K 从2增加到6时，SAAI 在确定真实类别数量方面的准确率优于 SSC 和 X-Means，尤其是在 K>3 时。SAAI 的准确率与外部指标 ARI 和 FMI 非常接近。

2. 增加数据维度 D：

当数据维度 D 从2增加到10时，SAAI 在确定真实类别数量 K 方面的表现优于 SSC 和 X-Means。SAAI 的准确率在 D<6 时与外部指标相当，甚至在 D≥6 时略优于外部指标。

3. 减少异常同步性比例：

当从1减少到0时，SAAI 在确定真实类别数量 K 方面的表现逐渐下降，但在 rsync>0.2 时仍优于 SSC 和 X-Means。当 rsync<0.2 时，SAAI 的表现低于 SSC 和 X-Means。

4. 滞后变量实验：

通过在两个变量之间引入时间滞后 l（从-720分钟到+720分钟），研究信号相似性对 SAAI 的影响。当相关系数 ρ>0.43 时，SAAI 的表现优于 SSC。在 l=180（对应 ρ=0.43）时，X-Means 的准确率略高于 SAAI。

5. 真实数据实验：

使用 EDEN ISS 温室温度数据，通过 MDI 和 DAMP 算法检测异常子序列，并使用 SAAI 和 SSC 进行聚类。SAAI 确定的最佳聚类数量为11，而 SSC 为3。SAAI 的结果更接近已知的异常类型数量（10种），且聚类结果更易于解释。

从实验中可以反映出：

SAAI 在确定多变量时间序列中异常类别的真实数量方面优于 SSC 和 X-Means。
SAAI 与外部指标（ARI 和 FMI）具有较高的相关性，表明其有效性。
SAAI 适用于信号相关性较高（相关系数 ρ>0.5）的多变量时间序列。
在真实数据中，SAAI 能够更准确地识别异常类型，并提供更易于解释的聚类结果。

但从局限性方面而言，SAAI 仅适用于多变量时间序列中具有足够相似性的信号所检测到的单变量异常，此外，它不考虑仅在一个变量中出现的异常事件（非同步异常）。

编辑：于腾凯

校对：丁玺茗

SAAI：利用异常同步性确定多变量时间序列中的理想异常类别数量

正文

请到「今天看啥」查看全文