OWASP最新指南为组建生成式AI红队或调整现有红队以适应新技术提供了详细的指导。
红队测试是一种经过时间检验的网络安全系统测试和加固方法,但它需要不断适应技术的演变。近年来,生成式AI和大语言模型(LLM)的爆发,是迫使红队测试领域再次调整的最新技术创新。
欧盟的《人工智能法案》和美国国家标准与技术研究院(NIST)的《人工智能风险管理框架》等法规和监管机构对AI红队测试的重视,进一步凸显了其重要性。
由于AI是一项新兴技术,许多组织刚刚开始制定生成式AI红队测试的方法,这使得OWASP最近发布的《生成式AI红队测试指南:评估AI漏洞的实用方法》成为一份及时的资源。
OWASP将生成式AI红队测试定义为一种“结构化方法,用于识别AI系统的漏洞并降低风险”,它结合了传统的对抗测试和AI特有的方法与风险。这包括生成式AI系统的各个方面,如模型、部署管道以及更广泛系统背景下的各种交互。
OWASP强调工具、技术方法和跨职能协作的作用,包括威胁建模、场景设计以及自动化,所有这些都是以人类专业知识为基础的。一些关键风险包括提示注入、偏见与毒性、数据泄露、数据中毒和供应链风险,其中部分风险也出现在OWASP的《LLM十大风险》中。
为了有效实施红队测试,需采取以下关键步骤:
明确目标和范围、
组建团队、
威胁建模、
覆盖整个应用栈、
总结、参与后分析和持续改进。
生成式AI红队测试通过关注AI驱动系统的细微和复杂性,补充了传统红队测试,涵盖了AI特有的威胁建模、模型侦察、提示注入、绕过安全护栏等新测试维度。
生成式AI红队测试在传统红队基础上,涵盖了生成式AI的独特方面,如模型、模型输出以及模型的响应。红队应检查模型是否可能被操纵以产生误导性或虚假输出,或通过“越狱”使其以非预期的方式运行。
团队还应判断数据泄露的可能性,这些都是生成式AI用户应关注的关键风险。OWASP建议测试时需同时考虑攻击者的视角和受影响用户的视角。
基于NIST的《AI RMF生成式AI配置文件》,OWASP指南建议在AI红队测试中考虑生命周期的各个阶段(如设计、开发等)、风险范围(如模型、基础设施和生态系统)以及风险来源。
正如我们所讨论的,生成式AI带来了一些独特风险,包括模型操纵与中毒、偏见和幻觉等。为此,OWASP推荐了一种涵盖以下四个关键方面的综合方法:
模型评估、
实现测试、
系统评估、
运行时分析。
这些风险还需从三个视角进行审视:安全性(操作者)、安全性(用户)和信任(用户)。OWASP将这些风险分为三大类:
安全性、隐私和稳健性风险,
毒性、有害语境和交互风险,
偏见、内容完整性和虚假信息风险。
特别是“代理式AI”引起了行业的极大关注,红杉资本等领先投资机构甚至称2025年为“代理式AI元年”。OWASP特别指出了多代理风险,如跨代理的多步攻击链、工具集成的利用以及通过代理交互绕过权限。为了提供更多细节,OWASP最近发布了《代理式AI——威胁与缓解》出版物,其中包括多代理系统威胁模型摘要。
OWASP将威胁建模列为生成式AI红队测试的关键活动,并推荐MITRE ATLAS作为重要的参考资源。威胁建模旨在系统分析系统的攻击面,识别潜在风险和攻击向量。
关键考量包括模型的架构、数据流以及系统如何与更广泛的环境、外部系统、数据以及用户和行为等社会技术方面互动。然而,OWASP指出,AI和机器学习带来了独特的挑战,因为模型可能由于非确定性和概率性而表现出不可预测的行为。
每个组织的生成式AI红队测试策略可能不尽相同。OWASP解释说,策略必须与组织的目标一致,这可能包括负责任AI目标和技术考量等独特方面。
生成式AI红队测试策略应考虑如上图所示的各个方面,例如基于风险的范围界定、跨职能团队的参与、设定明确目标以及生成兼具信息性和可操作性的报告。
一旦策略确定,组织可以制定生成式AI红队测试的蓝图。该蓝图提供了结构化的方法和具体的步骤、技术及目标。