想象一下,你让LLM做一道选择题,它直接选答案时像个社恐,支支吾吾说“可能是B吧”;但如果你让它先写个解题过程,它立刻变身“懂王”,拍着胸脯说“必须是B!我算过!”——即使答案是错的!
论文
:Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong
链接
:https://arxiv.org/pdf/2501.09775
这篇论文就是来扒一扒LLM的“迷之自信”。研究团队发现:
让AI先写推理再选答案,无论对错,它的自信心都会暴涨
,甚至比人类更擅长“自我说服”。比如,当AI答错时,它的自信值提升幅度比答对时还高!这不禁让人怀疑:AI是不是偷偷学了《职场糊弄学》?
方法:
让AI“写小作文”再考试
研究者设计了两套考试模式:
直球模式
:直接给答案(比如“选B”),AI内心OS:“我猜的,别骂我”。
小作文模式
:先写三段论式推理(比如“首先……其次……所以选B”),AI内心OS:“看我逻辑多缜密!”
他们用7个不同家族的LLM(包括Meta、谷歌、OpenAI等选手),在涵盖57个学科的MMLU题库上疯狂刷题,记录每次的答案和模型自评的置信度。
举个🌰:
问题
:一辆车先以60km/h开2小时,再以80km/h开3小时,平均速度是?
小作文模式输出
:
第一步算总路程:60×2+80×3=360km!
第二步算总时间:2+3=5小时!
第三步算平均速度:360÷5=72km/h!
所以答案是['sol': 'b']!
(此时AI的自信值直接拉满💥)
实验:
AI的“普信”名场面
关键发现
全员自信狂魔
:所有被测模型(从7B小模型到GPT-4o)在小作文模式下,答案置信度均显著提升
错得越离谱,越自信
:错误答案的置信度增幅比正确答案还高。比如某模型答错时,自信值从0.3飙到0.7,仿佛在说:“虽然我错了,但我的推理无懈可击!”
理科生更易上头
:在科学类问题中,自信值提升最明显,而历史题则效果平平(毕竟AI写小作文也编不出新史料)。
改答案更膨胀
:当AI通过推理把错误答案改成正确时,自信值飙升最猛,仿佛在喊:“我悟了!这次绝对对!”
全模型准确率对比图:小作文模式碾压直球模式
正确回答时,置信概率分布从“怂成一团”变成“自信爆棚”
错误回答时,概率分布直接“反向冲刺”,越错越坚定