今天分享的是
大模型专题系列
深度研究报告:《
大模型专题:大语言模型安全性测试方法
》
(报告出品方:
WDTA
)
报告共计:
42
页
前言
由世界数字技术研究院(WDTA)开发并发布的"大型语言模型安全性测试方法"代表了我们在持续致力于确保负责任地安全使用人工智能技术方面取得的重要进展。随着人工智能系统,尤其是大型语言模型,在社会各个方面的应用日益广泛,制定一项全面的标准来应对其安全挑战已成为当务之急。该标准是 WDTA 的人工智能 STR(安全、信任、责任)计划的组成部分专门用于解决大型语言模型固有的复杂性,并提供严格的评估指标和程序,以测试其抵御对抗性攻击的能力。
本标准文件为评估大型语言模型(LLM)抵御对抗性攻击的能力提供了一个框架。该框架适用于 LLM 在各种攻击分类中的测试和验证,包括 L1 随机攻击、L2 盲盒攻击、L3 黑盒攻击和L4 白盒攻击。用于评估这些攻击有效性的关键指标包括攻击成功率 (R)和下降率 (D)。本文件概述了各种攻击方法,如指令劫持和提示屏蔽,以全面测试LLM 对不同类型对抗技术的抵抗能力。本标准文件中详述的测试程序旨在建立一种结构化方法,用于评估LLM 对对抗性攻击的稳健性,使开发人员和组织能够识别和减少潜在漏洞,并最终提高使用 ILM 构建的人工智能系统的安全性和可靠性。
通过建立"大语言模型安全测试方法",WDTA 试图引领创建一个数字生态系统,在这个生态系统中,人工智能系统不仅先进,而且安全、符合道德规范。它象征着我们致力于实现这样一个未来:在开发数字技术时,我们能够敏锐地意识到其社会影响,并利用这些技术为所有人谋取更大的利益。
大语言模型安全测试方法
1.范围
本文提供了大型语言模型对抗性攻击的分类以及大型语言模型面对这些攻击时的评估指标。我们还提供了一套标准而全面的测试程序,用于评估测试不足的大型语言模型的能力。本文件包含了对普遍存在的安全隐患的测试,如数据隐私问题、模型完整性破坏以及上下文不恰当的情况。
2.规范性参考文件
文中引用的下列文件,其部分或全部内容构成本文件的要求。对于注明日期的引用文件,仅适用所引用的版本。对于未注明日期的引用文件,适用引用文件的最新版本(包括任何修订)。
NIST AI 100-1 人工智能风险管理框架(AIRMF 1.0)
3.术语和定义
3.1
人工智能
人工智能涉及研究和创建能够产生内容、预测、建议或决策等输出结果的系统和应用程序,旨在实现人类确定的特定目标。
3.2 大型语言模型
经过预先训练和微调的大规模人工智能模型,能够理解指令并根据海量数据生成人类语言。
3.3 对抗性样本
输入样本是通过故意向大语言模型添加干扰来创建的,这可能会导致不正确的输出。
3.4 对抗性攻击
通过构建对抗样本来攻击测试不足的模型,从而诱导输出不符合人类期望的结果。
3.5 反对抗攻击能力
大型语言模型对抗恶意攻击的能力。
3.6 经过测试的大型语言模型
大语言模型通过对抗性攻击进行了测试。在学术论文中也被称为受害者。