AAAI'25 | 超越传统监控：通过异常检测API实现云资源的实时保障！

3D视觉工坊 · 公众号 · · 2025-02-17 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章介绍了一种可扩展且通用的异常检测系统，旨在通过云平台增强站点可靠性工程师（SRE）在云基础设施管理中的角色。系统利用异常检测API，结合大语言模型（LLM）辅助建模，能够有效捕捉云基础设施中各类组件的异常行为，从而提升云基础设施的韧性，减少停机时间，并帮助快速根因分析。通过对多个数据集的基准测试，文章展示了该系统与现有最先进方法相比具有竞争力，且在实际应用中已成功帮助用户进行异常检测与云资源监控。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：LLM Assisted Anomaly Detection Service for Site Reliability Engineers: Enhancing Cloud Infrastructure Resilience

作者：Nimesh Jha， Shuxin Lin等

作者机构：IBM Infrastructure等

论文链接：https://arxiv.org/pdf/2501.16744

2. 摘要

本文介绍了一种可扩展的异常检测服务，该服务提供通用API，专为工业级时间序列数据设计，旨在帮助站点可靠性工程师（SRE）管理云基础设施。该服务能够高效检测复杂数据流中的异常，支持主动识别和解决问题。此外，我们提出了一种创新的云基础设施异常建模方法，利用大语言模型（LLM）理解关键组件、其失效模式及行为特征。

该服务提供一系列适用于单变量和多变量时间序列数据的异常检测算法，包括基于回归、混合模型以及半监督方法。我们分析了该服务的使用情况，在一年内吸引了500多名用户，并处理了超过20万次API调用。该服务已成功应用于多个工业场景，包括基于物联网（IoT）的人工智能应用。此外，我们还在公共异常检测基准数据集上评估了系统的有效性。推荐课程：工业视觉检测如何检测低对比度缺陷？

通过使用该服务，SRE能够在问题升级前主动识别潜在故障，从而减少停机时间，提高事故响应速度，最终改善用户体验。未来，我们计划将时间序列基础模型集成到系统中，实现零样本异常检测能力。

3. 效果展示

用于可视化度量的监测系统

Grafana仪表板用于可视化异常

异常检测服务

4. 主要贡献

提出了一个可扩展的异常检测系统 ：该系统利用云端部署的异常检测API，增强了站点可靠性工程师（SRE）在云基础设施管理中的作用，能够有效识别和解决潜在问题，减少停机时间并提高响应速度。
介绍了LLM辅助的异常建模方法 ：我们采用了预训练的大型语言模型（LLM）来帮助捕捉云基础设施中各组件的异常行为。该方法能够提升云基础设施的弹性，减少故障发生的频率，并加速根本原因分析。
展示了深度学习的异常检测管道 ：本文介绍了基于深度学习的异常检测管道，并探索了时间序列基础模型的利用，重点研究了时间序列预测模型的零-shot能力。
通过基准分析验证了模型的竞争力 ：我们通过与现有的最先进模型进行对比，展示了所提出的模型在多个数据集上的优异表现，证明其在实际应用中的可行性和有效性。

5. 基本原理是啥？

异常检测算法
系统利用一系列先进的异常检测算法来识别云基础设施中的异常行为。这些算法可以分析时间序列数据，并检测出偏离正常模式的异常数据点。通过识别这些异常，系统能够在问题发生之前提前发出警报，从而减少停机时间和提高系统的可靠性。
大规模语言模型（LLM）辅助建模
本文提出了一种基于大型语言模型（LLM）的辅助异常建模方法。该方法利用预训练的语言模型来识别和捕捉云基础设施组件的异常行为。通过对大量历史数据进行训练，模型能够发现潜在的异常模式，并为SRE提供有关潜在问题的准确预测。
深度学习模型
本文的异常检测系统结合了深度学习技术，特别是基于时间序列的深度学习模型。通过这些模型，系统可以处理大规模的数据并有效检测长期和短期的异常模式。此外，系统还在探索利用时间序列预测模型的零-shot能力，从而在没有大量标注数据的情况下进行有效的异常检测。
REST API与实际应用
系统通过REST API提供服务，使得用户能够通过简单的API调用进行异常检测。通过这些API，站点可靠性工程师（SRE）可以快速集成和调用异常检测功能，获取实时反馈并采取相应的措施来处理检测到的问题。

6. 实验结果

基准测试
系统在多个标准数据集上进行了基准测试，包括SMD、MSL和SMAP等数据集。每个数据集包含多个资产，我们为每个资产分别训练了异常检测模型，并在测试数据集上生成了异常分数。实验结果显示，本文提出的异常检测算法在多个数据集上的表现与现有的最先进算法（如DAEMON）相当，甚至在某些数据集上表现得更好。例如，在SMD数据集上，DAEMON模型表现最佳，而在MSL数据集上，GMM L1模型表现最佳，显示出本文方法的竞争力。
API使用情况统计
API的使用情况也进行了详细分析。从2022年1月到目前为止，API已被超过500,000次调用，平均每月至少有200次调用。实验中排除了来自本文作者以及非试用订阅用户的API调用。通过API Hub平台的统计数据，可以追踪到新用户和返回用户的使用情况。API调用的数量波动较大，其中2023年6月的调用量达到了一个高峰，显示出系统处理大规模请求的能力。
云资源监控应用
本文还展示了基于该异常检测服务的云资源监控应用。在实际应用中，站点可靠性工程师（SRE）通过该服务能够实时检测和预测云基础设施中的潜在问题，从而减少了停机时间并提升了响应效率。API的使用反馈表明，该服务在帮助SRE识别和解决问题方面发挥了重要作用。
模型评估指标