1. 基本信息和摘要
论文题目
Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models
Paper:
https://openreview.net/pdf?id=JCG0KTPVYy
作者
Qitan Lv, Jie Wang, Hanzhu Chen, Bin Li, Yongdong Zhang, Feng Wu
研究单位
拟解决问题
摘要
本文探讨了在大型语言模型(LLMs)中减少知识幻觉问题的方法。知识幻觉是指模型生成看似合理但与事实不符的信息。检索增强型语言模型(RALM)通过引入最新的知识来减少幻觉,但现有方法在处理
长文本
时可能会加剧幻觉问题。为解决这一挑战,作者提出了一种新颖的
Coarse-to-Fine Highlighting(COFT)
方法,该方法通过在不同粒度级别上关注关键文本,避免了在长文本中迷失。COFT由
三个组成部分
构成:recaller、scorer和selector。
-
Recaller
利用知识图谱提取给定上下文中的潜在关键实体;
-
Scorer
通过计算上下文权重来衡量每个实体的重要性;
-
Selector
使用动态阈值算法选择高上下文权重的实体,并以粗到细的方式突出显示对应的段落、句子或单词。
在知识幻觉基准测试上的广泛实验表明了COFT的有效性,在F1得分指标上平均提高了30%以上。此外,COFT在各种长文本任务上也表现出显著的多功能性,如阅读理解和问答任务。
2. 方法
动机 & 概述
现有的检索增强型语言模型在处理长文本时可能会加剧知识幻觉问题,主要原因是
缺乏完整的上下文语义
和容易在长文本中迷失。COFT方法包括三个关键组件:
Recaller
,
Scorer
,
Selector
。
Recaller
利用知识图谱提取给定上下文中的潜在关键实体,并检索它们的一级邻居以丰富候选实体列表。
-
-
-
检索与识别的实体相关的一级邻近实体,以丰富候选实体列表。
-
Scorer
使用小型语言模型计算每个候选实体的上下文权重,以此来衡量实体与查询的相关性。
-
-
-
-
其中
是实体
在句子
中出现的次数,
是句子
中词的数量,
是实体
在整个参考文本
中出现的次数。
-
自信息计算 (Self-Information Calculation)
:
-
-
其中
是词
由小型语言模型
给定先前词和查询条件
下的输出概率。
-
上下文权重评估 (Contextual Weight Assessment)
:
-
计算每个关键实体
的上下文权重,结合TF-ISF得分和自信息:
-