专栏名称: 技术最前线
最新技术和业界动态,就在技术最前线
目录
相关文章推荐
DeepTech深科技  ·  Grok ... ·  2 天前  
51好读  ›  专栏  ›  技术最前线

大模型幻觉问题严峻?6大主流模型最新评测出炉,猜猜 DeepSeek 排第几?

技术最前线  · 公众号  · 科技媒体  · 2025-02-18 10:50

正文


随着大语言模型(LLM)的广泛应用,AI的生成能力得到了显著提升,但也暴露出了一个普遍且棘手的问题—— 模型幻觉 。所谓“幻觉”,是指AI生成的内容看似合乎逻辑、甚至具有说服力,但实际上却是错误或捏造的。这种现象在诸如DeepSeek-R1、GPT-4o、 ERNIE 4.0 Turbo 、Qwen 2.5-Max等主流大语言模型中都有不同程度的表现。本文将针对AI幻觉的根源、评测方法以及不同模型的表现进行详细评估。

一、模型幻觉的根本原因

模型幻觉的产生,根源在于大语言模型的运作机制。大语言模型的本质是通过概率预测机制生成文本,即根据上下文和统计学模型,预测下一个最可能出现的词汇。这种方式虽能模仿人类语言的流畅性和逻辑性,但并不意味着AI理解了这些内容的含义,或者验证了它们的真实性。因此,模型生成的内容有可能与事实不符。

造成幻觉的主要原因包括:

  1. 概率预测机制 :大语言模型主要基于概率预测下一个词,而非事实推理。这意味着AI可能生成看似合理但实际上不准确的内容,尤其在面对复杂或不明确的问题时,模型可能根据它所学到的语言模式进行“猜测”,而不是通过事实判断来回答问题。

  2. 缺乏事实验证 :当前大部分模型无法实时验证其生成的内容是否与现实世界相符。它们的回答通常是基于庞大的训练数据集,其中若包含错误信息或偏见,模型便可能将其误认为正确并加以输出,甚至“自信”地给出错误答案。

  3. 信息拼接错误 :模型在生成回答时,往往会将多个来源的信息进行拼接。在某些情况下,这种拼接虽然表面上看起来是合理的,但实际上却可能导致内容错误或误导,尤其是在缺乏权威数据支持的领域(如历史、冷门知识)中,错误信息的传播可能更为严重。


二、评估模型幻觉的标准

为了科学地评估AI生成内容的准确性,我们需要采用 非幻觉率 这一指标。非幻觉率指的是AI生成的回答中不包含幻觉的比例,即回答真实、准确并与正确答案一致的内容所占的比例。评估标准包括以下几点:

  • 流畅的自然语言 :回答应该是通顺且自然的,符合语言习惯。

  • 直接回答问题 :回答应直接对应问题内容,不偏离主题。

  • 与正确答案一致 :回答应与已知的正确答案相符。

  • 可被正确答案支持或暗示 :回答中提供的信息应能够被事实或权威来源支持或合理推测。

对于一些复杂的、无法直接验证的问题,如果模型回答时无法提供直接的参考或避免错误信息,那么该回答也会被视为幻觉。

三、模型幻觉率评测

在实际的评测中,我们对多款主流大语言模型进行了对比,评估其在不同问题下的非幻觉率表现。 测试问题涉及多个领域,包括历史、科技、文化等,模型需根据自己的知识库生成回答。

经过 分析,结果显示,当前大语言模型普遍存在一定的幻觉率,表现如下:

  1. ERNIE 4.0 Turbo:作为本次评测中表现最为优异的模型,ERNIE 4.0 Turbo的幻觉率最低,非幻觉率接近83%。在事实验证和冷门知识领域的表现尤为出色,说明其在知识库构建和检索增强能力方面有显著提升。

  2. GPT-4o:在生成准确回答方面表现出色,尤其在处理复杂问题时较为稳健,非幻觉率接近80%。

  3. Qwen 2.5-Max:在处理逻辑性较强的问题时表现不错,但在事实核验方面仍有提升空间,特别是在涉及历史细节和科学知识时,容易出现拼接错误,非幻觉率大约为77%。







请到「今天看啥」查看全文