组合关系推理(CRR)是人类智能的标志性能力,人类能够理解多个实体之间的复杂关系,并基于这些关系进行推理,但我们尚不清楚现有的大语言模型是否能够胜任CRR任务。近期,一篇美国人工智能协会年会AAAI发布的高分论文,提出了一种新的合成基准——广义关联回忆(GAR),用于系统评估LLMs的CRR能力。通过该基准的测试,首次明确指出了大语言模型在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。
研究领域:大语言模型,组合关系推理,
广义关联回忆(GAR)基准 ,
归因修补 ,
机制可解释性
论文题目:Benchmarking and Understanding Compositional Relational Reasoning of LLMs
论文地址:https://arxiv.org/pdf/2412.12841
组合关系推理
(Compositional Relational Reasoning, CRR)
是人类智能的标志性特征,但我们对现有 Transformer 架构的大语言模型
(LLMs)
是否以及如何解决 CRR 任务仍缺乏清晰的理解。为了系统性地探索 LLMs 在 CRR 方面的能力,我们首先提出了一个新的合成基准测试——广义关联回忆
(Generalized Associative Recall, GAR)
,该基准通过整合和推广机制可解释性
(Mechanistic Interpretability, MI)
研究中的多个核心任务,将其统一到一个框架中。实验评估表明,GAR 对现有 LLMs 来说具有足够的挑战性,揭示了它们在 CRR 方面的基本缺陷,同时也足够简单,适用于系统性的 MI 研究。为了理解 LLMs 如何解决 GAR 任务,我们采用归因修补
(Attribution Patching)
方法,发现 Vicuna-33B 在不同任务中复用的一组核心回路以及一组关键注意力头。干预实验表明,这些注意力头的正确运作对任务表现具有显著影响。特别地,我们识别出了两类注意力头,它们的激活分别代表 GAR 任务中的“真”和“假”等抽象概念,并在不同模型和任务中起到了基础性作用,推动 CRR 任务的成功执行。
文章共同第一作者肖达老师在集智俱乐部就大语言模型主题做过多次分享,回看地址:
https://pattern.swarma.org/user/2118/study_groups
此前用于测试大型语言模型的基准,要么过于简单。比如,在测试大型语言模型时,常出现的是句子“完形填空”任务。这种任务无需理解字词之间的逻辑关系,仅依靠其预训练数据中的记忆就能作答,无法准确评估模型在复杂关系推理任务时的真实回路。为此,研究者首先设计了
GAR基准,整合了多个经典任务,并通过不同的任务形式
,如判别式任务和生成式任务,并根据难度进行分类,系统考察主流LLMs在CRR任务中的表现。
进一步,研究者采用
归因修补技术
,分析Vicuna-33B模型在不同任务中所用的核心回路机制和关键的注意力头。通过干预实验,研究者发现这些注意力头的正确运作对任务表现具有显著影响,尤其是在GAR任务中,激活代表真假概念的两类注意力头发挥了基础作用。
实验结果表明,GAR基准尽管看似简单,但对于现有的LLMs
,
如开源的Llama-2/3 7B-70B和封闭源的GPT 3.5/4而言仍具有挑战性。
随着模型规模的扩大,组合性差距反而增加
,即能回答子问题,但难以有效整合得出最终结论,
揭示出LLMs在CRR上的基本缺陷
。研究者识别出两类注意力头,其激活分别表示GAR任务中的抽象真假概念。进一步的实验表明,这些头在各种模型和任务中均扮演了重要角色。
研究揭示了Vicuna-33B在解决GAR任务时所利用的核心回路。通过归因修补,研究者发现了模型中重用的注意力头集,尤其是在分类任务中,
识别出对真假判断至关重要的高阶关系头
。在生成任务中,高阶局部头和高阶归纳头通过桥接不同上下文中的类关系头和预测头,促进了模型的上下文学习能力。
图 3. Vicuna-33B解决GAR问题时的回路机制。
图 4.Vicuna-33B部分重要注意力头的分析及干预效果。在图(a)中,(A)表示肯定生成任务,(N)为负生成任务。
此研究首次识别并分析了真实LLMs中对CRR任务表现有重大影响的注意力头,并提供了可以在系统性MI研究中复用的核心回路。通过对这些注意力头的干预研究,验证了其在任务执行中的关键作用。这一发现为进一步改进LLMs的CRR能力提供了新的视角,也为复杂任务的MI研究提供了有力工具。总的来说,该研究不仅提升了我们对LLMs在组合关系推理方面的理解,还为未来在此领域的深入研究奠定了基础。
彭晨
| 编译
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起
「大模型II:融合学习与推理的大模型新范式 」读书会
,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年11月30日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!