专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

ICML 2024 || COFT: 减少大模型对长文本的知识幻觉

深度学习与图网络 · 公众号 · · 2024-08-10 09:27

正文

1. 基本信息和摘要

论文题目

Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models

Paper: https://openreview.net/pdf?id=JCG0KTPVYy

作者

Qitan Lv, Jie Wang, Hanzhu Chen, Bin Li, Yongdong Zhang, Feng Wu

研究单位

中国科学技术大学

拟解决问题

大语言模型对 长文本的幻觉 问题。

摘要

本文探讨了在大型语言模型（LLMs）中减少知识幻觉问题的方法。知识幻觉是指模型生成看似合理但与事实不符的信息。检索增强型语言模型（RALM）通过引入最新的知识来减少幻觉，但现有方法在处理 长文本 时可能会加剧幻觉问题。为解决这一挑战，作者提出了一种新颖的 Coarse-to-Fine Highlighting（COFT） 方法，该方法通过在不同粒度级别上关注关键文本，避免了在长文本中迷失。COFT由 三个组成部分 构成：recaller、scorer和selector。

Recaller 利用知识图谱提取给定上下文中的潜在关键实体；
Scorer 通过计算上下文权重来衡量每个实体的重要性；
Selector 使用动态阈值算法选择高上下文权重的实体，并以粗到细的方式突出显示对应的段落、句子或单词。

在知识幻觉基准测试上的广泛实验表明了COFT的有效性，在F1得分指标上平均提高了30%以上。此外，COFT在各种长文本任务上也表现出显著的多功能性，如阅读理解和问答任务。

2. 方法

动机 & 概述

现有的检索增强型语言模型在处理长文本时可能会加剧知识幻觉问题，主要原因是 缺乏完整的上下文语义 和容易在长文本中迷失。COFT方法包括三个关键组件： Recaller , Scorer , Selector 。

Recaller

利用知识图谱提取给定上下文中的潜在关键实体，并检索它们的一级邻居以丰富候选实体列表。

命名实体识别 (NER) :

利用NER工具识别查询中的实体。

知识图谱检索 :

检索与识别的实体相关的一级邻近实体，以丰富候选实体列表。

召回器 (Recall) :

保留在参考文本中出现的候选实体。

Scorer

使用小型语言模型计算每个候选实体的上下文权重，以此来衡量实体与查询的相关性。

分割参考文本 (Segmentation) :

将参考文本分割成句子列表。

TF-ISF计算 :

计算每个实体在句子中的TF-ISF得分：
其中是实体在句子中出现的次数，是句子中词的数量，是实体在整个参考文本中出现的次数。

自信息计算 (Self-Information Calculation) :

计算每个词的自信息：
其中是词由小型语言模型给定先前词和查询条件下的输出概率。

上下文权重评估 (Contextual Weight Assessment) :

计算每个关键实体的上下文权重，结合TF-ISF得分和自信息：
综合了实体的出现频率和其在上下文中的信息重要性。