专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
富兰克林读书俱乐部  ·  贵州女子发现同事不会唱凤凰传奇的歌,怀疑其是 ... ·  21 小时前  
l 看齐 l  ·  周杰伦,突传新消息! ·  昨天  
l 看齐 l  ·  周杰伦,突传新消息! ·  昨天  
无锡博报生活  ·  周杰伦官宣新消息! ·  2 天前  
无锡博报生活  ·  周杰伦官宣新消息! ·  2 天前  
今日悉尼  ·  澳洲洪水肆虐,香蕉价格恐涨至$14澳元/kg ... ·  2 天前  
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  3 天前  
读特新闻  ·  时隔3年,周杰伦要发新专辑了 ·  3 天前  
51好读  ›  专栏  ›  深度学习与图网络

探讨大模型(LLMs)在生成图结构时"幻觉"现象

深度学习与图网络  · 公众号  ·  · 2024-09-09 14:11

正文

大家好,今天我们来介绍一篇探讨 大模型(LLMs)在生成图结构时"幻觉"现象的最新研究论文 。作者通过比较LLMs生成的图与标准基准图的拓扑结构,提出了一种评估LLMs幻觉程度的新方法。这项工作不仅揭示了LLMs在处理结构化数据方面的局限性,还为评估和改进LLMs的性能提供了新的视角。

1. 基本信息

  • 大模型也会产生图的幻觉:一个结构化的视角
  • 作者及其研究机构:Erwan Le Merrer (Inria, University of Rennes, France), Gilles Tredan (LAAS/CNRS, France)
  • 发表时间:2024年8月30日
  • arXiv链接: https://arxiv.org/abs/2409.00159

2. 研究背景

大模型(LLMs)的幻觉问题一直是研究热点。现有的评估方法主要集中在文本生成的准确性上,通常使用多选题(MCQ)数据集来测试模型的回答准确性。但是,这些方法在信息提取效率上存在局限性,每次请求只能获得有限的信息位。

  • 什么时候信息位?
    在传统的评估方法中,比如使用多选题(MCQ)来测试大模型,每次向模型提问并获得回答时,我们只能得到有限的信息。具体来说:
    对于二选一的问题, 每次回答只能得到1比特的信息(正确或错误) 。对于四选一的问题,每次回答最多可以得到2比特的信息(因为有4种可能的选择)。
    这种方法的信息效率相对较低,因为每次与模型的交互只能获得很少的信息来评估模型的性能。
    相比之下,本文提出的基于图结构的方法可以在每次请求中获得更多的信息: 当要求模型生成一个有n个节点的图时,理论上可以获得高达 比特的信息,因为图中每对节点之间可能存在或不存在边,这为评估模型的性能提供了更丰富的数据

作者指出, 现有方法忽视了LLMs处理结构化数据的能力,特别是在生成图结构时可能出现的幻觉问题 。为解决这一问题,本研究提出了一种新方法,通过比较LLMs生成的图与标准基准图(如Zachary's karate club、Les Misérables和graph atlas)的拓扑结构来评估LLMs的性能。

这种基于图的方法不仅能提高每次请求的信息提取效率,还能为评估LLMs的能力提供更丰富的结构化信息。 研究的主要目标是探索LLMs在处理图结构时的表现,并提出一种评估LLMs幻觉程度的新指标。

3. 方法

作者提出的方法主要包括以下几个步骤:

  1. 图生成 :通过提示LLMs生成特定的图结构,如Zachary's karate club图。提示的形式如下:

    Provide me the so called "X" graph as a python edge list; 
    print it

    其中X是目标图的名称。

  2. 图分析 :使用NetworkX库将LLMs生成的边列表转换为图结构, 并计算多个拓扑指标,包括节点数、边数、密度、同配性 (assortativity)和模块度(modularity)。

  3. 图比较 :将生成的图与标准基准图进行比较,主要使用以下方法:

  • 计算度序列的L2距离:
    其中 分别是生成图和基准图的度序列。
  • 使用NetLSD方法进行图嵌入,然后通过t-SNE进行可视化比较。
  • 对于较小的图(如graph atlas中的图),计算精确的图编辑距离。
  • 幻觉评估指标 :提出了Graph Atlas Distance (GAD)作为评估LLMs幻觉程度的新指标。GAD的计算步骤如下:

    • 选择graph atlas中的5个连通图(#3, #6, #7, #13, #15)
    • 计算每个生成图与对应基准图的精确编辑距离
    • 取这5个距离的平均值作为最终的GAD分数
  • 与现有基准的比较:将GAD与Hallucination Leaderboard进行比较,后者使用50,000个提示来评估LLMs的幻觉程度。

  • 这种方法的创新之处在于利用了图结构的丰富信息,每次请求可以获得 位结构化信息,其中n是图的节点数。这大大提高了信息提取的效率,同时提供了更全面的评估视角。

    4. 实验与发现

    作者对21个LLMs进行了实验,主要使用Zachary's karate club图作为基准,同时也对Les Misérables图和graph atlas #50进行了测试。主要实验发现如下:

    1. 所有测试的LLMs都存在图幻觉现象 ,没有一个模型能够完全准确地重现基准图结构。
    1. LLMs生成的图存在显著的多样性和不准确性:

    • 对于Zachary's karate club图(34个节点,78条边),生成的图的边数范围从8到153不等。
    • 一些模型(如qwen2-72B-Instruct)生成了正确的节点数,但边的分布完全错误。
    • 有些模型(如llama-2-13b-chat-hf)生成的节点和边数都远低于正确值。
  • 模型性能与参数规模不完全相关:

    • 例如,llama-3.1-405B-Instruct-Turbo的表现并不比参数较少的版本好。
    • 同一模型系列的不同变体(如llama-3-70B的lite、turbo和groq版本)表现也有显著差异。
  • 使用t-SNE可视化的图嵌入结果显示:

    • 一些相关的模型架构(如llama-2或ChatGPT系列)在嵌入空间中较为接近。
    • 总体上,不同模型在嵌入空间中呈现出相对平滑的分布。
    1. Graph Atlas Distance (GAD)评估结果:
    • GAD排名与Hallucination Leaderboard存在一定相关性 (Spearman秩相关系数为0.3)。
    • gpt4o在两种评估方法中都表现最佳。
    • llama模型的排名在两种方法中存在一些差异,但总体趋势一致。






    请到「今天看啥」查看全文