专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
数据何规  ·  韩国通报DeekSeek调查进展 ·  昨天  
文案包邮  ·  deepseek完整版教程.pdf ·  2 天前  
青岛日报  ·  刚刚,DeepSeek回应! ·  3 天前  
青岛日报  ·  刚刚,DeepSeek回应! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

微软发现不同prompt模版会导致最大40%性能差距!

深度学习自然语言处理  · 公众号  ·  · 2024-11-20 22:49

正文

这篇文章研究了提示格式对大型语言模型(LLM)性能的影响。通过将相同的上下文格式化为纯文本、Markdown、JSON和YAML等不同模板,并在自然语言推理、代码生成和翻译等任务中使用OpenAI的GPT模型进行评估,发现GPT-3.5-turbo在代码翻译任务中的表现因提示模板而异,最高可达40%。相比之下,较大的模型如GPT-4对这些变化更为鲁棒。研究结果表明,不同的提示格式会显著影响模型性能,提示工程需要重新考虑固定模板的使用。

论文: Does Prompt Formatting Have Any Impact on LLM Performance?
链接: https://arxiv.org/pdf/2411.10541

研究背景

这篇文章探讨了不同提示模板对大型语言模型(LLMs)性能的影响。尽管已有研究探讨了重述提示上下文、使用各种提示技术(如同上下文学习和思维链提示)以及排序少样本示例等方面,但对LLMs对提示模板敏感性的理解仍然有限。

该问题的研究难点包括:如何系统地评估不同提示模板对模型性能的影响,以及如何识别在不同任务中表现最佳的提示格式。

已有研究表明,LLMs对细微的提示修改非常敏感,如分隔符或大小写变化(Sclar et al., 2023),并且现有的评估方法通常使用固定模板,可能导致误导性结论(Voronov et al., 2024)。

研究方法

这篇论文提出了一个系统的方法来评估不同提示模板对LLMs性能的影响。具体来说,

  1. 敏感性分析:首先,使用单侧配对t检验比较每种模板的最高分和最低分,以确定模型性能是否因格式变化而显著不同。公式如下:
    其中, 表示模板 在任务 上的得分, 分别表示最高分和最低分。
  2. 一致性分析:其次,使用一致性指标量化由于提示变化引起的答案变化。公式如下:
    其中, 是测试集大小, 表示模型的答案。一致性得分越高,表明不同提示之间的答案越一致。
  3. 可迁移性分析:最后,使用交并比(IoU)评估不同模型对顶级模板的可迁移性。公式如下:

    其中, 分别表示






请到「今天看啥」查看全文


推荐文章
数据何规  ·  韩国通报DeekSeek调查进展
昨天
文案包邮  ·  deepseek完整版教程.pdf
2 天前
青岛日报  ·  刚刚,DeepSeek回应!
3 天前
青岛日报  ·  刚刚,DeepSeek回应!
3 天前
金乡大蒜辣椒国际交易市场  ·  2017年6月11日金乡大蒜国际交易市场大蒜行情
7 年前
静塾文化  ·  你的格局决定你的结局
7 年前
德明中医  ·  Be what you wanna be
7 年前