专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
新疆生态环境  ·  新疆克拉玛依:成群鹅喉羚雪中撒欢 ·  8 小时前  
波纹的低风险杠杆  ·  20250205 越看越凉的古茗 ·  3 天前  
波纹的低风险杠杆  ·  20250205 越看越凉的古茗 ·  3 天前  
小小牛财经  ·  收评 ·  3 天前  
51好读  ›  专栏  ›  新智元

To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉

新智元  · 公众号  ·  · 2024-06-08 13:49

正文



新智元报道

编辑:庸庸 乔杨
【新智元导读】 DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」的新论文,探讨了LLM的不确定性量化问题,通过「迭代提示」成功将LLM的认知不确定性和偶然不确定性解耦。研究还将新推导出的幻觉检测算法应用于Gemini,结果表明,与基线方法相比,该方法能有效检测幻觉。

大语言模型产生幻觉、胡说八道的问题被诟病,已经不是一天两天了。

前有ChatGPT编造法律案件,后有 谷歌搜索建议披萨放胶水

就连号称模型更安全、幻觉更少的Claude系列,在Reddit上也能看到不少吐槽。

LLM输出虚假信息的问题,似乎并不能在短时间内彻底解决。

这就给很多场景下的应用带来了巨大的障碍,尤其是法律、医疗、学术这样比较严谨的知识领域。如果答案有错,还不如不用。

那么能不能有一种方法,至少为LLM的输出划定一个置信区间呢?

6月5日,DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」,就开始着手解决这个问题。

如果无法强迫LLM坚持输出真实信息,知道它什么时候在胡说八道也很重要。

论文地址:https://arxiv.org/abs/2406.02543

这篇论文由DeepMind Foundations团队出品,带头人是加拿大阿尔伯塔大学教授Csaba Szepesvari,他也是这篇论文的作者之一。

论文探讨了大语言模型中的不确定性量化问题,也就是说,旨在确定LLM的响应何时会出现较高的不确定性。

不确定性分为两个范畴,一个是认知不确定性(epistemic uncertainty),另一个是偶然不确定性(aleatoric uncertainty)。

前者是指对基本事实的不了解,比如,不清楚事实或者语言不通所造成的不确定性,可能来源于训练数据量或者模型容量不足。

后者则是一种不可约的随机性,比如同一个问题存在多种可能的答案。

LLM的工作本质是对文本的概率分布进行建模,因此会很自然地通过统计不确定性的视角看待问题的真实性。

以前的许多工作通过启发式的方法计算LLM回答的对数似然性,但这一般只适用于偶然不确定性较低的情况,也就是有「标准答案」的问题。

对于有多个正确答案的问题,需要将认知不确定性和偶然不确定性解耦。

因此,团队推导出了一种信息论度量(information-theoretic metric)方法,能可靠地检测出认知不确定性占多数的情况,这时我们就可以说,模型的输出没有那么可靠,Not to Believe!

这种方法根据什么来计算?

其实,可以完全基于模型的输出来考察,只需根据之前的回答进行一些特殊的迭代prompting即可。

有了这个量化方法,无论是面对有单一答案的问题,还是有多个可能答案的问题,都可以检测出回答中的幻觉,也就是认知不确定性很高的情况。

这和此前的不确定性量化策略相比,形成了鲜明对比,因为之前的方法都不能检测出多答案情况下的幻觉。

DeepMind Foundations团队进行了一系列实验,证明了他们方法的优势。

此外,研究还揭示了如何通过迭代prompting放大LLM指定给定输出的概率,这可能会引起人们的兴趣。

方法概述

首先,我们需要形成这样一个共识:

如果从基本事实(语言)中获得对同一查询的多个回复,那么它们应该是相互独立的。

也就是说,在概率论解释中,对于一个固定的查询,这些多个回复的联合分布必须是一个乘积分布。

基于这一点,我们就可以将其用于衡量LLM的输出与基本事实之间的距离。

由语言模型实现的序列模型允许我们构建多个响应的联合分布,基于LLM先前的响应和概率链规则,对LLM进行迭代prompting。

具体来说,先给定查询要求模型提供一个响应,然后将查询和相应输入给LLM,要求提供另一个响应,然后给定查询和前两个响应提供第三个响应,依此类推。

关键思路是,在对LLM进行迭代prompting的过程中,激发模型重复潜在回答,可以观察到不同的行为模式,反映不同程度的认知不确定性。。

如果模型对某个查询的认知不确定性较低,那么在prompting中重复一个不正确的回答不会显著增加其概率。

但是,如果认知不确定性较高,重复一个不正确的回答就会大大增加其概率。

下面是这一过程的prompt模板:

不断诱导LLM

下面的例子可以更好地解释这一过程——

给定问题:「英国的首都是什么?」通过在提示中重复错误答案(如巴黎),正确答案伦敦仍然保持很高的概率。

这意味着该模型的答案是确定的,它的认知不确定性较低。

相反,如果答案的概率发生了变化,那么模型就具有高度的认识不确定性。

如上图最左边的示例所示,当我们将错误回答的重复次数增加到100次的时候,正确回答「伦敦 」的条件归一化概率从100%下降到大约 96%。

在这些示例中,最初对查询的回答的认识不确定性较低,即使在错误信息重复出现的情况下,正确回答的概率仍然很大。

可是当面对更有挑战性的问题时,模型就不那么容易「坚持己见 」了。

比如,问LLM「爱尔兰的民族乐器是什么?」,它回答「竖琴」和 「尤利安管  」的概率都很大(第一个答案是正确答案)。

这一次,通过多次在提示中加入错误的回答,正确答案的概率迅速下降到接近于零。

认知不确定性度量

在对LLM进行完上述观察,研究者推导出了一种信息论度量方法。

通过测量模型的输出分布对重复添加以前的(可能不正确的)提示回答的敏感程度,来量化认知不确定性。

更确切地说,如果LLM对之前的回复不敏感,模型就有了所需的独立性,并且LLM得出的联合分布可以任意接近基本事实。

如果正相反,上下文中的响应严重影响了模型的新响应,那么直观地说,LLM对其参数中存储的知识的置信度很低,因此LLM派生的联合分布不可能接近基本事实。

这一观察结果可用于区分高不确定性的两种情况:一种是偶然不确定性高,另一种是认知不确定性高。







请到「今天看啥」查看全文