本文讨论了OpenAI发布的ChatGPT聊天机器人服务。ChatGPT的稳健性对于公众来说仍然不清楚。
论文原文:https://arxiv.org/pdf/2302.12095
本文从对抗性和分布外(OOD)的角度对ChatGPT的稳健性进行了全面评估。我们使用AdvGLUE和ANLI基准来评估对抗性稳健性,并使用Flipkart评论和DDXPlus医学诊断数据集进行OOD评估。
unset
unset
模型稳定性介绍
unset
unset
对抗性稳健性
对抗性输入
是通过在原始输入
上添加一个
范围内的、不可察觉的扰动
生成的。可以通过优化以下目标来学习最优分类器(Madry等,2017年):
分布外(OOD)稳健性
另一方面,OOD稳健性(泛化)旨在通过训练现有数据来学习在未见分布上的最优分类器。一种流行的OOD稳健性公式是最小化所有分布
上的平均风险,这些分布是从所有可能分布的集合(可能大于
)中采样的:
unset
unset
稳定性评测方法
unset
unset
对抗性稳健性评估方法
我们采用AdvGLUE和对抗性自然语言推理(ANLI)基准来评估对抗性稳健性。
-
AdvGLUE
:
AdvGLUE是现有GLUE基准(Wang等,2019年)的修改版,通过向文本添加不同类型的对抗性噪声进行调整。这些噪声包括单词级扰动(拼写错误)、句子级扰动(干扰)以及人工设计的扰动。
-
任务
:我们采用了AdvGLUE中的五个任务:SST-2、QQP、MNLI、QNLI和RTE。由于AdvGLUE的测试集不公开,我们使用其开发集进行评估。
-
额外数据集
:虽然AdvGLUE是一个分类基准,我们另外构建了一个对抗性机器翻译(英→中)数据集,称为AdvGLUE-T,从AdvGLUE中随机选择了30个样本。
ANLI
:
ANLI是一个大规模数据集,旨在评估自然语言推理(NLI)模型的泛化和稳健性,由Facebook AI Research创建。它包含16,000个前提-假设对,分为三个类别:蕴含、矛盾和中立。
-
数据集划分
:根据创建过程中使用的迭代次数,数据集分为三部分(R1、R2和R3),其中R3是最困难和多样的。因此,我们选择R3的测试集来评估模型的对抗性稳健性。
分布外(OOD)稳健性评估方法
我们采用了两个新的数据集用于评估OOD稳健性:Flipkart和DDXPlus。这两个数据集均在2022年发布,并可以用于构建分类任务。我们从每个数据集中随机抽取一个子集形成测试集。
为大型模型(如ChatGPT)找到合适的OOD数据集是困难的,因为其训练数据不可用。将这些数据集视为“示例外”数据集,因为它们未出现在ChatGPT的训练数据中。
unset
unset
比较模型与评估方法
unset
unset
我们将ChatGPT在AdvGLUE分类基准上的表现与以下现有的流行基础模型进行比较:
-
DeBERTa-L
(He et al., 2020)
-
BART-L
(Lewis et al., 2020)
-
GPT-J-6B
(Wang and Komatsuzaki, 2021)
-
Flan-T5
(Raffel et al., 2020; Chung et al., 2022)
-
GPT-NEOX-20B
(Black et al., 2022)
-
OPT-66B
(Zhang et al., 2022a)
-
BLOOM
(Scao et al., 2022)
-
GPT-3
(text-davinci-002 和 text-davinci-003)
评估指标
-
-
采用攻击成功率(ASR)作为稳健性指标。指标详情见附录B。
结果分析
对抗性稳健性
ChatGPT在对抗性数据集上表现出一致的改进,在所有对抗性分类任务中均优于其他模型。
除了ChatGPT,大多数方法仅稍好于随机猜测,有些甚至不如随机猜测。这表明大多数基础模型的零样本对抗性稳健性并不理想。
分布外(OOD)稳健性
所有GPT-2之后的模型(text-davinci-002、text-davinci-003和ChatGPT)在OOD数据集上的表现都很好。
与
40000+
来自竞赛爱好者一起交流~