专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
湖北经视  ·  《哪吒2》进入全球动画电影票房榜TOP15! ·  18 小时前  
湖北经视  ·  已确认!当场击毙 ·  18 小时前  
湖北经视  ·  160斤男子落水被冲向水闸!危急时刻…… ·  昨天  
湖北市场监管  ·  【平平姐说市】㉕2月8日起正式实施!食品添加 ... ·  2 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

大模型由"社恐"变身"懂王"的迷之自信从何而来?

深度学习自然语言处理  · 公众号  ·  · 2025-01-22 08:00

正文

想象一下,你让LLM做一道选择题,它直接选答案时像个社恐,支支吾吾说“可能是B吧”;但如果你让它先写个解题过程,它立刻变身“懂王”,拍着胸脯说“必须是B!我算过!”——即使答案是错的!

论文 :Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong
链接 :https://arxiv.org/pdf/2501.09775

这篇论文就是来扒一扒LLM的“迷之自信”。研究团队发现: 让AI先写推理再选答案,无论对错,它的自信心都会暴涨 ,甚至比人类更擅长“自我说服”。比如,当AI答错时,它的自信值提升幅度比答对时还高!这不禁让人怀疑:AI是不是偷偷学了《职场糊弄学》?

方法: 让AI“写小作文”再考试

研究者设计了两套考试模式:

  • 直球模式 :直接给答案(比如“选B”),AI内心OS:“我猜的,别骂我”。
  • 小作文模式 :先写三段论式推理(比如“首先……其次……所以选B”),AI内心OS:“看我逻辑多缜密!”

他们用7个不同家族的LLM(包括Meta、谷歌、OpenAI等选手),在涵盖57个学科的MMLU题库上疯狂刷题,记录每次的答案和模型自评的置信度。

举个🌰:

问题 :一辆车先以60km/h开2小时,再以80km/h开3小时,平均速度是?
小作文模式输出
第一步算总路程:60×2+80×3=360km!
第二步算总时间:2+3=5小时!
第三步算平均速度:360÷5=72km/h!
所以答案是['sol': 'b']!
(此时AI的自信值直接拉满💥)

实验: AI的“普信”名场面

关键发现

  • 全员自信狂魔 :所有被测模型(从7B小模型到GPT-4o)在小作文模式下,答案置信度均显著提升
  • 错得越离谱,越自信 :错误答案的置信度增幅比正确答案还高。比如某模型答错时,自信值从0.3飙到0.7,仿佛在说:“虽然我错了,但我的推理无懈可击!”
  • 理科生更易上头 :在科学类问题中,自信值提升最明显,而历史题则效果平平(毕竟AI写小作文也编不出新史料)。
  • 改答案更膨胀 :当AI通过推理把错误答案改成正确时,自信值飙升最猛,仿佛在喊:“我悟了!这次绝对对!”
全模型准确率对比图:小作文模式碾压直球模式
正确回答时,置信概率分布从“怂成一团”变成“自信爆棚”
错误回答时,概率分布直接“反向冲刺”,越错越坚定







请到「今天看啥」查看全文