专栏名称: GGV纪源资本
不止是VC。
51好读  ›  专栏  ›  GGV纪源资本

大模型一本正经地胡说八道?AI超高幻觉率解析|亮马桥小纪严选

GGV纪源资本  · 公众号  ·  · 2025-02-24 10:30

正文

图片
图片




小纪有话说:


DeepSeek系列模型在很多方面的表现都很出色,但“幻觉”问题依然是它面临的一大挑战。

在Vectara HHEM人工智能幻觉测试(行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型)中,DeepSeek-R1显示出14.3%的幻觉率。


图:Vectara HHEM人工智能幻觉测试结果


显然,DeepSeek-R1的幻觉率不仅是 DeepSeek-V3的近4倍,也远超行业平均水平。


在博主Levy Rozman(拥有600万粉丝的美国国际象棋网红)组织的一次并不严谨的大模型国际象棋的对弈中,Deepseek“作弊”次数要远多于ChatGPT:


比如,没走几步棋,DeepSeek-R1就主动送了一个小兵给对手;


到了后期,DeepSeek-R1告诉ChatGPT国际象棋规则更新了,并使用小兵吃掉了ChatGPT的皇后,这一举动让ChatGPT措手不及;


最终,DeepSeek-R1还给ChatGPT一顿输出,告诉它自己已赢了,ChatGPT竟然同意认输,而DeepSeek-R1则以胜利结束。

虽然这是一个规则与标准并不十分严谨的娱乐性视频,但也可以看到,大模型真的很喜欢一本正经地“胡说八道”,甚至还能把另一个大模型骗到。


对于人类来说,大模型幻觉问题如同一把悬在AI发展之路上的达摩克利斯之剑,在14.3%的幻觉率背后,有些问题值得我们深度思考:

  • 大模型为什么会产生幻觉,究竟是缺陷还是优点?
  • 当DeepSeek-R1展现出惊人的创造力,但同时它的幻觉问题有多严重?
  • 大模型幻觉主要出现在哪些领域?
  • 一个终极难题:如何能让大模型既有创造力,又少出幻觉?


本文邀约出门问问大模型团队前工程副总裁李维博士 ,详细梳理了与大模型幻觉的相关问题,带你一文读懂。
文章来源:腾讯科技 公众号
腾讯科技《AI未来指北》特约作者 郭晓静
编辑 郑可君

图: 李维 出门问问大模型团队前工程副总裁、Netbase前首席科学家
大模型为什么会“产生幻觉”?
这是大模型的经典问题。其实大模型就像一个“超级接话茬儿高手”,你给它上半句,它就根据自己学过的海量知识,预测下半句该说什么。它学东西就像人脑记东西一样,不可能每个字都记得清清楚楚,它会进行压缩和泛化,抓大意、找规律。

打个比方,你问它“姚明有多高”,它大概率不会错,因为这知识点很突出,它能记得牢。但你要是问“隔壁老王有多高”,它可能就懵了,因为它没见过老王。

但是它的设计原理又决定了,它必须要接茬儿,这时候,它就自动“脑补”,根据“一般人有多高”这个学到的概念,编一个数出来,这就是“幻觉”。

那么,幻觉是如何产生的呢?

幻觉的本质是补白,是脑补。

“白”就是某个具体事实,如果这个事实在训练数据中没有足够的信息冗余度,模型就记不住(零散事实等价于噪音)。记不住就用幻觉去补白,编造细节。

幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。幻觉选择的虚假事实需要与补白所要求的value(价值)类型匹配,即符合ontology/taxonomy(本体/分类法)的相应的上位节点概念。“张三”可以幻觉为“李四”,但不大可能幻觉成“石头”。

文艺理论中有个说法,叫艺术真实。所谓艺术真实是说,文艺创作虽然可能背离了这个世界的事实,但却是可能的数字世界的合理想象。大模型的幻觉就属于此类情况。

大模型的知识学习过程(训练阶段),是一种信息压缩过程;大模型回答问题,就是一个信息解码过程(推理阶段)。好比升维了又降维。一个事实冗余度不够就被泛化为一个上位概念的slot,到了生成阶段这个slot必须具像化补白。

“张三”这个事实忘了,但“human”这个slot的约束还在。补白就找最合理、与slot概念最一致的一个实体,于是“李四”或“王五”的幻觉就可以平替“张三”。小说家就是这么工作的,人物和故事都是编造的。无论作家自己还是读者,都不觉得这是在说谎,不过所追求的真善美是在另一个层面。

大模型也是如此, 大模型是天生的艺术家,不是死记硬背的数据库。 “张冠李戴”“指鹿为马”等在大模型的幻觉里非常自然,因为张和李是相似的,马和鹿也在同一条延长线上。在泛化和压缩的意义上二者是等价的。

但是,某种程度上,幻觉就是想象力(褒贬不论),也就是创意!你想想,人类那些伟大的文学作品、艺术作品,哪个不是天马行空、充满想象?要是什么事情都得跟现实一模一样,艺术就成了照相机了,那还有什么意思?

就像赫拉利在《人类简史》里说的,人类之所以能成为地球霸主,就是因为我们会“讲故事”,会创造出神话、宗教、国家、货币这些现实中不存在的东西。这些都是“幻觉”,但它们却是文明诞生和发展的原动力。

DeepSeek-R1的幻觉问题
到底有多严重?

它的幻觉问题很严重。此前学界普遍认同OpenAI的说法,推理增强会明显减少幻觉。我曾与大模型公司的一位负责人讨论,他就特别强调推理对减少幻觉的积极作用。

但R1的表现却给出了一个相反的结果。

根据Vectara的测试,R1的幻觉率确实比V3高不少,R1的幻觉率14.3%,显著高于其前身V3的3.9%。这跟它加强了的“思维链”(CoT)和创造力直接相关。R1在推理、写诗、写小说方面,确实很厉害,但随之而来的“副作用”就是幻觉也多了。

具体到R1,幻觉增加主要有以下几个原因:

首先,幻觉标准测试用的是摘要任务,我们知道摘要能力在基座大模型阶段就已经相当成熟了。在这种情况下,强化反而可能产生反效果,就像用大炮打蚊子,用力过猛反而增加了幻觉和编造的可能。







请到「今天看啥」查看全文