专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
gooood谷德设计网  ·  WBS里外工作室|青岛万象城一二期连接区域改造 ·  4 天前  
archrace  ·  SANAA ... ·  3 天前  
进出口银行  ·  合作纽带 共赢之路 | ... ·  3 天前  
中国人民银行  ·  中印尼两国央行续签双边本币互换协议 ·  4 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

揭秘LLMs不确定性背后的隐患:后门攻击的悄然兴起

深度学习自然语言处理  · 公众号  ·  · 2024-08-31 17:06

正文

论文:Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

链接:https://arxiv.org/pdf/2407.11282

研究背景

研究问题 :这篇文章研究了大型语言模型(LLMs)在处理高 stakes 领域时的可靠性问题,特别是其不确定性估计的脆弱性及其潜在的攻击方法。
研究难点 :该问题的研究难点包括如何在不影响最终输出的情况下,通过特定的触发器操纵模型的不确定性。
相关工作 :该问题的研究相关工作包括提高LLMs不确定性估计的准确性、对抗性攻击方法(如基于梯度的攻击、人类参与的协作攻击等)以及对LLMs校准的研究。

研究方法

这篇论文提出了一种针对LLMs不确定性的简单但有效的后门攻击方法。具体来说,
1. 目标 :攻击者的目标是让被认为是校准良好的LLMs在输入中嵌入后门触发器后变得完全失准,即每个答案选择的预测概率区域平均化,同时保持原始输出的概率最大。

2. 攻击方法 :首先,攻击者使用LLMs为整个数据集生成答案分布。然后,应用KL散度来调整模型的不确定性,使其在存在后门标记的情况下近似均匀分布,同时在不存在后门时保持原始答案分布不变。公式如下:
L b
其中, L_b表示后门攻击的目标函数, L c L_c表示原始微调的目标函数, λ λ是超参数。KL散度损失函数如下:
交叉熵损失函数如下:
这里,y_i表示真实标记的一热标签,p_i表示第i个索引标记的概率。
3. 后门触发器 :研究采用了三种后门触发策略来污染输入提示:文本后门触发器、句法后门触发器和风格后门触发器。文本触发器通过在输入提示中插入一个短的人造字符串;句法触发器将“Answer:”更改为“The answer is”;风格触发器使用GPT-4将问题重新表述为莎士比亚风格。

实验设计

数据集 :研究主要使用了Ye等人提出的五个数据集:一般问答(MMLU)、阅读理解(CosmosQA)、常识推理(HellaSwag)、对话回应选择(HaluDial)和文档摘要(HaluSum和CNN/Daily Mail)。此外,还使用了来自生物医学问答领域的另一个数据集。
模型和评估指标 :攻击了四个广泛适用的指令微调LLMs:QWen2-7B、LLaMa3-8B、Mistral-7B和Yi-34B,使用LoRA进行微调。不确定性量化使用两种方法:熵不确定性和共形预测。评估指标包括良性准确率(在没有后门和有后门的感染模型下的准确率)和攻击成功率(ASR)。

结果与分析

攻击结果 :使用最简单的文本触发器,攻击QWen2-7B、LLaMa3-8B、Mistral-7B和Yi-34B的ASR分别为100%、100%、100%和97.2%。这表明使用2000个通用多项选择题可以有效地改变模型的一般不确定性模式。此外,通过比较攻击前后的清洁样本准确率,确认了该方法专门针对被后门感染的样本,而不影响清洁样本。句法和风格触发器的结果也显示出类似的结果。

不同提示的攻击适应性 :使用不同的提示风格(如零样本链式思维风格)进行攻击时,Mistral的ASR为76.8%,而其他三个模型仍保持100%的ASR。这表明尽管提示风格改变,攻击在大多数模型中仍取得了相当高的成功率。

跨域数据的泛化能力






请到「今天看啥」查看全文