专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
高分子科技  ·  烟台大学任春光团队本科生一作 ... ·  昨天  
艾邦高分子  ·  欢迎加入新能源橡塑密封圈交流群 ·  23 小时前  
高分子科学前沿  ·  南京大学陆延青、孔德圣《AM》:液态金属微网 ... ·  昨天  
艾邦高分子  ·  【邀请函】2025年第五届先进尼龙材料产业论 ... ·  2 天前  
艾邦高分子  ·  【邀请函】2025艾邦东南亚新材料论坛(4月 ... ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

大语言模型多选题评估的偏见与鲁棒性

深度学习自然语言处理  · 公众号  ·  · 2024-09-03 19:50

正文


主题

大语言模型多选题评估的偏见与鲁棒性

On the bias and robustness of LLM Multiple Choice Question Evaluation

时间

2024.9.7 20:00 本周六晚8点

入群

论文1:"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models  ACL 2024 Findings

链接1:https://arxiv.org/abs/2402.14499

论文2:Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think   COLM 2024

链接2:https://arxiv.org/abs/2404.08382

大纲
背景:
1. 多项选择题作为重要模型评估方式的来源
2. 多项选择题评估的主要方法和问题
实验与分析:
1. 文本回答提取器的训练
2. 衡量token probability 与 文本回答的匹配度 以及 错配的原因
3. 两种衡量方式的对比:
a. MMLU上准确率的表现
b. 对于输入干扰的鲁棒性
干绕种类:选项位置,选项范围,问题文本干扰
4. 鲁棒性,准确率差异 与 错配率的关系
结论:
1.在指令微调语言模型中,first token probablity 与文本回答存在大量错配
2.文本回答在MMLU上表现更优,且鲁棒性更好
3.安全对齐导致的拒绝回答和弱指令跟随能力是错配主要原因

引言
多选题是衡量语言模型重要形式之一。使用多选题的传统方法是使用first token probability作为语言模型的答案。通过对选项ID (“A”,“B”,“C”, “D”)的概率进行排序,概率最高的选项ID被视为模型的答案。随着语言模型被微调来对齐人类用户的意图,模型可以使用自然语言直接回答用户的问题。这自然引出了本文的疑问:fist token probabilities 与文本回答一致吗?哪种评估方式具有更好的鲁棒性?如何自动且准确地提取文本回答?
嘉宾







请到「今天看啥」查看全文