专栏名称: Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
目录
相关文章推荐
51好读  ›  专栏  ›  Coggle数据科学

小白学NLP:ChatGPT稳定性评测

Coggle数据科学  · 公众号  ·  · 2024-05-15 13:56

正文

请到「今天看啥」查看全文


本文讨论了OpenAI发布的ChatGPT聊天机器人服务。ChatGPT的稳健性对于公众来说仍然不清楚。

论文原文:https://arxiv.org/pdf/2302.12095

本文从对抗性和分布外(OOD)的角度对ChatGPT的稳健性进行了全面评估。我们使用AdvGLUE和ANLI基准来评估对抗性稳健性,并使用Flipkart评论和DDXPlus医学诊断数据集进行OOD评估。

unset unset 模型稳定性介绍 unset unset

对抗性稳健性

对抗性输入 是通过在原始输入 上添加一个 范围内的、不可察觉的扰动 生成的。可以通过优化以下目标来学习最优分类器(Madry等,2017年):

分布外(OOD)稳健性

另一方面,OOD稳健性(泛化)旨在通过训练现有数据来学习在未见分布上的最优分类器。一种流行的OOD稳健性公式是最小化所有分布 上的平均风险,这些分布是从所有可能分布的集合(可能大于 )中采样的:

unset unset 稳定性评测方法 unset unset

对抗性稳健性评估方法

我们采用AdvGLUE和对抗性自然语言推理(ANLI)基准来评估对抗性稳健性。

  1. AdvGLUE : AdvGLUE是现有GLUE基准(Wang等,2019年)的修改版,通过向文本添加不同类型的对抗性噪声进行调整。这些噪声包括单词级扰动(拼写错误)、句子级扰动(干扰)以及人工设计的扰动。

  • 任务 :我们采用了AdvGLUE中的五个任务:SST-2、QQP、MNLI、QNLI和RTE。由于AdvGLUE的测试集不公开,我们使用其开发集进行评估。
  • 额外数据集 :虽然AdvGLUE是一个分类基准,我们另外构建了一个对抗性机器翻译(英→中)数据集,称为AdvGLUE-T,从AdvGLUE中随机选择了30个样本。
  • ANLI : ANLI是一个大规模数据集,旨在评估自然语言推理(NLI)模型的泛化和稳健性,由Facebook AI Research创建。它包含16,000个前提-假设对,分为三个类别:蕴含、矛盾和中立。

    • 数据集划分 :根据创建过程中使用的迭代次数,数据集分为三部分(R1、R2和R3),其中R3是最困难和多样的。因此,我们选择R3的测试集来评估模型的对抗性稳健性。

    分布外(OOD)稳健性评估方法

    我们采用了两个新的数据集用于评估OOD稳健性:Flipkart和DDXPlus。这两个数据集均在2022年发布,并可以用于构建分类任务。我们从每个数据集中随机抽取一个子集形成测试集。

    • Flipkart :一个产品评论数据集。
    • DDXPlus :一个新的医学诊断数据集。

    为大型模型(如ChatGPT)找到合适的OOD数据集是困难的,因为其训练数据不可用。将这些数据集视为“示例外”数据集,因为它们未出现在ChatGPT的训练数据中。

    unset unset 比较模型与评估方法 unset unset

    我们将ChatGPT在AdvGLUE分类基准上的表现与以下现有的流行基础模型进行比较:

    • DeBERTa-L (He et al., 2020)
    • BART-L (Lewis et al., 2020)
    • GPT-J-6B (Wang and Komatsuzaki, 2021)
    • Flan-T5 (Raffel et al., 2020; Chung et al., 2022)
    • GPT-NEOX-20B (Black et al., 2022)
    • OPT-66B (Zhang et al., 2022a)
    • BLOOM (Scao et al., 2022)
    • GPT-3 (text-davinci-002 和 text-davinci-003)

    评估指标

    1. 对抗性分类任务(AdvGLUE和ANLI)

    • 采用攻击成功率(ASR)作为稳健性指标。指标详情见附录B。
  • 分布外(OOD)分类任务

    • 采用F1-score(F1)作为指标。

    结果分析

    对抗性稳健性

    ChatGPT在对抗性数据集上表现出一致的改进,在所有对抗性分类任务中均优于其他模型。

    除了ChatGPT,大多数方法仅稍好于随机猜测,有些甚至不如随机猜测。这表明大多数基础模型的零样本对抗性稳健性并不理想。

    分布外(OOD)稳健性

    所有GPT-2之后的模型(text-davinci-002、text-davinci-003和ChatGPT)在OOD数据集上的表现都很好。

    # 竞赛交流群 邀请函 #

    △长按添加竞赛小助手

    每天大模型、算法竞赛、干货资讯

    40000+ 来自竞赛爱好者一起交流~







    请到「今天看啥」查看全文