大家好,今天我们来介绍一篇探讨
大模型(LLMs)在生成图结构时"幻觉"现象的最新研究论文
。作者通过比较LLMs生成的图与标准基准图的拓扑结构,提出了一种评估LLMs幻觉程度的新方法。这项工作不仅揭示了LLMs在处理结构化数据方面的局限性,还为评估和改进LLMs的性能提供了新的视角。
1. 基本信息
-
-
作者及其研究机构:Erwan Le Merrer (Inria, University of Rennes, France), Gilles Tredan (LAAS/CNRS, France)
-
-
arXiv链接:
https://arxiv.org/abs/2409.00159
2. 研究背景
大模型(LLMs)的幻觉问题一直是研究热点。现有的评估方法主要集中在文本生成的准确性上,通常使用多选题(MCQ)数据集来测试模型的回答准确性。但是,这些方法在信息提取效率上存在局限性,每次请求只能获得有限的信息位。
-
什么时候信息位?
在传统的评估方法中,比如使用多选题(MCQ)来测试大模型,每次向模型提问并获得回答时,我们只能得到有限的信息。具体来说:
对于二选一的问题,
每次回答只能得到1比特的信息(正确或错误)
。对于四选一的问题,每次回答最多可以得到2比特的信息(因为有4种可能的选择)。
这种方法的信息效率相对较低,因为每次与模型的交互只能获得很少的信息来评估模型的性能。
相比之下,本文提出的基于图结构的方法可以在每次请求中获得更多的信息:
当要求模型生成一个有n个节点的图时,理论上可以获得高达
比特的信息,因为图中每对节点之间可能存在或不存在边,这为评估模型的性能提供了更丰富的数据
。
作者指出,
现有方法忽视了LLMs处理结构化数据的能力,特别是在生成图结构时可能出现的幻觉问题
。为解决这一问题,本研究提出了一种新方法,通过比较LLMs生成的图与标准基准图(如Zachary's karate club、Les Misérables和graph atlas)的拓扑结构来评估LLMs的性能。
这种基于图的方法不仅能提高每次请求的信息提取效率,还能为评估LLMs的能力提供更丰富的结构化信息。
研究的主要目标是探索LLMs在处理图结构时的表现,并提出一种评估LLMs幻觉程度的新指标。
3. 方法
作者提出的方法主要包括以下几个步骤:
-
图生成
:通过提示LLMs生成特定的图结构,如Zachary's karate club图。提示的形式如下:
Provide me the so called "X" graph as a python edge list;
print it
其中X是目标图的名称。
-
图分析
:使用NetworkX库将LLMs生成的边列表转换为图结构,
并计算多个拓扑指标,包括节点数、边数、密度、同配性
(assortativity)和模块度(modularity)。
-
图比较
:将生成的图与标准基准图进行比较,主要使用以下方法:
-
计算度序列的L2距离:
其中
和
分别是生成图和基准图的度序列。
-
使用NetLSD方法进行图嵌入,然后通过t-SNE进行可视化比较。
-
对于较小的图(如graph atlas中的图),计算精确的图编辑距离。
幻觉评估指标
:提出了Graph Atlas Distance (GAD)作为评估LLMs幻觉程度的新指标。GAD的计算步骤如下:
-
选择graph atlas中的5个连通图(#3, #6, #7, #13, #15)
-
-
与现有基准的比较:将GAD与Hallucination Leaderboard进行比较,后者使用50,000个提示来评估LLMs的幻觉程度。
这种方法的创新之处在于利用了图结构的丰富信息,每次请求可以获得
位结构化信息,其中n是图的节点数。这大大提高了信息提取的效率,同时提供了更全面的评估视角。
4. 实验与发现
作者对21个LLMs进行了实验,主要使用Zachary's karate club图作为基准,同时也对Les Misérables图和graph atlas #50进行了测试。主要实验发现如下:
-
所有测试的LLMs都存在图幻觉现象
,没有一个模型能够完全准确地重现基准图结构。
-
-
对于Zachary's karate club图(34个节点,78条边),生成的图的边数范围从8到153不等。
-
一些模型(如qwen2-72B-Instruct)生成了正确的节点数,但边的分布完全错误。
-
有些模型(如llama-2-13b-chat-hf)生成的节点和边数都远低于正确值。
-
例如,llama-3.1-405B-Instruct-Turbo的表现并不比参数较少的版本好。
-
同一模型系列的不同变体(如llama-3-70B的lite、turbo和groq版本)表现也有显著差异。
-
一些相关的模型架构(如llama-2或ChatGPT系列)在嵌入空间中较为接近。
-
总体上,不同模型在嵌入空间中呈现出相对平滑的分布。
-
Graph Atlas Distance (GAD)评估结果:
-
GAD排名与Hallucination Leaderboard存在一定相关性
(Spearman秩相关系数为0.3)。
-
-
llama模型的排名在两种方法中存在一些差异,但总体趋势一致。