入侵检测系统(IDS)长期以来一直是网络安全领域的研究热点。近年来,随着深度学习(DL)技术的引入,IDS 在检测能力方面取得了显著进展,其广泛的泛化能力是主要推动因素之一。其基本原理在于,通过学习已知系统行为的底层模式,IDS 可以将检测能力推广到利用零日漏洞的入侵行为。在本综述中,我们将这类系统称为基于深度学习的入侵检测系统(DL-IDS)。从深度学习的视角出发,本文系统性地回顾了 DL-IDS 的各个阶段,包括数据收集、日志存储、日志解析、图结构摘要、攻击检测以及攻击分析。为便于当前研究者使用,我们还整理了当前公开可用的基准数据集。在此基础上,本文进一步探讨了现阶段 DL-IDS 面临的主要挑战及未来的研究方向,旨在帮助研究人员全面理解 DL-IDS 的基本理念与研究愿景,并激发其研究兴趣。
1 引言
万物互联的愿景通过互联网将人、过程、数据和设备连接在一起 [46],为世界带来了便利和高效。然而,这种连接所带来的不可避免的安全漏洞也可能被恶意攻击者利用。随着高级持续性威胁(APT)等攻击手段日益复杂,攻击者具备了破坏网络系统或窃取敏感数据的强大能力。因此,基于深度学习(DL)的入侵检测成为网络安全社区的一个重要研究课题。
通常,入侵检测过程通过软件或硬件系统自动完成,这些系统被称为入侵检测系统(IDS)[4, 14, 54, 112, 142, 143, 162, 215]。入侵检测是指监控和分析计算机或网络中发生的事件,以识别可能的入侵行为。当攻击者通过互联网访问系统,或者授权用户滥用其权限或尝试获取未授权权限时,均可被视为入侵行为。
IDS 在保护计算机和网络系统方面发挥着关键作用。IDS 的局限性可能导致企业遭受严重损失。例如,最近发生的 Colonial Pipeline 勒索软件攻击事件 [17]。2021 年 4 月,黑客组织 DarkSide 使用一个未使用的 VPN 账户对美国最大的输油管道公司 Colonial Pipeline 发动了勒索攻击。此次攻击导致 5,500 英里的输油管道被迫关闭,影响了美国东海岸近 45% 的燃油供应。Colonial Pipeline 最终支付了 440 万美元的赎金,并损失了超过 100GB 的数据。如果能够及时检测到恶意软件的入侵行为,此次攻击的影响本可大大减缓甚至完全避免。
1.1 艰难而光明的入侵检测系统
几十年来,IDS 一直面临着应对复杂入侵行为的巨大挑战。如图 1(a) 所示,CVE¹ 漏洞记录数量呈加速上升趋势,尤其在 2016 年出现了急剧增长。此后,CVE 数量持续快速增长,预计到 2024 年将达到约 30,000 条。此外,CNNVD² 报告(见图 1(b))显示,几乎所有(即 97.2%)的漏洞属于中等或更高风险级别,其中高危和严重风险占比达到 40%。漏洞数量的快速增长以及高风险漏洞的占比增加,均表明 IDS 面临的形势异常严峻。
然而,图 1(a) 中还有一个值得关注的现象:DL-IDS 相关论文的数量从 2016 年开始迅速增长,其增长趋势几乎与 CVE 漏洞数量保持一致。推测其潜在原因在于,DL 技术为 IDS 提供了强大的泛化能力,使其能够应对传统方法难以发现的零日攻击。一些研究 [200, 216, 229] 验证了这一推测:在实验中,DL-IDS 的检测准确率均超过 90%,而传统 IDS 有时仅为 50%左右。
可以说,尽管未来 IDS 的发展面临挑战,但也因 DL 技术而充满希望。2024 年,基于 DL 的 IDS 论文已占 IDS 总论文数量的 65.7%,从 2016 年几乎为零的占比快速上升。这一现象体现了网络安全研究界对 DL-IDS 的极大兴趣和愿景。如今,DL-IDS 的发展已有近十年历史,因此是时候系统回顾 DL 与 IDS 的融合历程,识别当前趋势,并引导未来研究方向。
1.2 相关综述与本文研究范围
遗憾的是,过去十年中尚无综述系统性地研究 DL-IDS。一方面,一些相关综述仅关注 DL-IDS 的部分环节,如日志解析 [122, 168, 232]、数据集 [181] 和攻击建模 [10, 181];另一方面,尽管部分综述 [19, 71, 82, 91, 111, 112, 123, 131, 142, 143, 238] 涉及 DL 方法,但并未从 DL 的角度专门审视 DL-IDS。
关于 DL-IDS 的局部研究
:一些综述如 [10, 122, 168, 181, 232] 是典型的只覆盖 DL-IDS 局部内容的文献。Adel [10] 主要研究了应对 APT 攻击的相关技术与解决方案,并探讨了如何提升 APT 检测系统的智能性;Scott 等人 [122] 与 Tejaswini 等人 [168] 详细分析了在线日志解析器及其在异常检测中的应用;Branka 等 [181] 回顾了 APT 数据集的构建方法和特征工程策略;Zhang 等 [232] 则对系统日志解析器构建了全面的分类体系,并实证评估了 17 个开源日志解析工具的关键性能与操作特征。显然,这些工作对于推动 DL-IDS 理论的发展和理解仍显不足。
与 DL-IDS 角度不同的综述
:另一类文献尽管涉及 DL-IDS,但其出发点并非基于 DL 的视角。例如,综述 [91, 112] 主要全面介绍了 IDS 方法,包括签名检测与异常检测;文献 [71] 基于日志数据探讨了自动化日志分析在可靠性工程中的应用,包括异常检测、故障预测与诊断;Nasir 等人在 [142] 中分析了群体智能方法在 IDS 中的有效性及其多目标优化面临的挑战。
此外,不同数据类型也影响了现有综述的研究重点,如主机型 IDS(HIDS)[19, 111, 123, 131, 238] 与网络型 IDS(NIDS)[5, 143]。Bridges 等 [19] 关注利用主机数据实现企业网络 IDS;Martins 等 [131] 将 HIDS 的概念引入物联网;作为 HIDS 数据的一种形式,溯源图 [111, 123, 238] 及其缩减技术 [82] 也被广泛研究;而在 NIDS 领域,Nassar 等 [143] 探讨了基于机器学习的网络入侵检测技术;Ahmad 等 [5] 更进一步,融合 ML 与 DL 方法,并详细分析了下游学习方法。
总的来看,现有综述对 DL-IDS 的研究覆盖仍较为缺乏,DL 技术往往只是“涉及”,而非研究的核心焦点。
本文的研究范围
:本综述区别于现有文献的关键在于,从 DL 的角度出发,对 DL-IDS 进行了全面、系统的文献回顾。我们提出了一套通用的 DL-IDS 工作流程,并基于该流程构建了所有模块的研究分类体系。此外,我们还讨论了 DL-IDS 当前面临的挑战与未来研究愿景,涵盖多个现有综述尚未涉及的 DL 相关问题。
1.3 本文贡献与结构
总的来说,本文作出了以下贡献:
-
意识到在 DL 技术的推动下,IDS 取得了显著进展,本文对 DL-IDS 进行了全面的综述,形式化其定义并明确其类型定位;
-
本文提出了 DL-IDS 的通用工作流程,包括数据管理阶段与入侵检测阶段,并系统性地介绍了各模块的研究进展,创新性地从 DL 技术角度对相关文献进行分类;
-
从 DL 的视角出发,探讨 DL-IDS 面临的挑战与未来研究方向,尤其强调了 DL-IDS 所特有的问题,以支持当前研究者的进一步探索。
文章结构
:第 2 节介绍本文的研究方法,第 3 节回顾 DL-IDS 的基础知识。第 4 和第 5 节分别深入探讨数据管理与入侵检测的最新研究趋势。第 6 节总结了常用的基准数据集及其特征维度,第 7 节展望未来研究挑战与方向,第 8 节为全文总结。
专知便捷查看,访问下面网址或
点击最底端“阅读原文”
https://www.zhuanzhi.ai/vip/26401d21b85c44153b988496a90ee37f
点击“
阅读原文
”,查看下载本文