专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  风投式思维:哪吒2和DeepSeek背后的共 ... ·  3 天前  
数据派THU  ·  政务系统拥抱DeepSeek,会带来哪些改变? ·  昨天  
数据派THU  ·  【ICLR2025】VEVO:基于自监督解耦 ... ·  昨天  
数据派THU  ·  数据派志愿者招募 | 寻找最志同道合的你! ·  10 小时前  
数据派THU  ·  牛津大学等提出P-sLSTM,释放LSTM在 ... ·  3 天前  
51好读  ›  专栏  ›  数据派THU

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

数据派THU  · 公众号  · 大数据  · 2025-02-22 17:00

正文

图片

来源:PaperWeekly

本文约2600字,建议阅读5分钟

本文为你回答GPT 这样的大型语言模型(LLM)是否具备组合关系推理(CCR)能力。


人类拥有一种强大的能力,能够理解多个实体之间复杂的关系并基于这些关系进行推理,这被称为 组合关系推理 (Compositional Relational Reasoning, CRR)。这种能力不仅是智能的标志,也是我们应对日常问题和复杂任务的核心技能。那么,像 GPT 这样的大型语言模型(LLM)是否具备这种能力?它们又是如何在内部处理这种任务的?


为了回答这个问题,研究者开发了一个新的基准测试,称为 广义关联回忆 (Generalized Associative Recall, GAR),专门用来评估 LLM 在组合推理任务中的表现,并进一步研究模型如何解决这些任务。论文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京邮电大学和彩云科技合作完成。



图片

论文链接:

https://arxiv.org/abs/2412.12841

项目链接:

https://github.com/Caiyun-AI/GAR


1、 GAR基准测试


研究者注意到,目前大多数用于测试 LLM 的任务要么过于简单,只能用于可解释性分析,无法真实反映模型在复杂推理场景下的表现,要么过于复杂,不适合深入研究模型的内部机制。


因此,他们设计了 GAR,一个更加多样化和具有挑战性的基准测试。GAR 整合了多个经典任务(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通过不同的任务形式(如肯定 / 否定句、生成 / 分类任务)和难度等级,系统地考察模型的推理能力。


简单来讲(更多例子见下图 1 和图 2):

  • associate recall 就是从前文 “抄写”:前文说了 “小明有苹果”,后文再说 “小明有__”,就知道要填 “苹果”;

  • knowledge recall 就是记到 “脑子” 里的各种常识知识:苹果是一种__(水果),巴黎在__(法国)

  • IOI 就是排除(否定):【苹果、狗、苹果】哪个不是苹果?__(狗)


GAR 的特点是:


1. 挑战性足够高: 即使是最先进的 LLM,在 GAR 任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。


2. 适合深入研究: GAR 任务相对简单的生成过程,使得研究者能够更好地追踪模型内部的推理机制。



图片
▲ 图1. 广义关联回忆(Generalized Associative Recall, GAR)任务构建框架。 GAR 任务的设计流程包括三个步骤:选择关系模式(如 “same” 或 “kindOf”)、采样数据构建关系环(结合语义与语法关系)以及生成语句并引入语义和句法变体(如否定形式或主宾交换),图中左中右部分分别展示了关系环的构建、任务数据的生成与语句的多样化处理,体现了 GAR 在任务灵活性和复杂度上的优势

图片
▲ 图2. GAR 任务示例。任务分为两大类:生成式(填空题,补全最后一个词)和判别式(判断题,回答 Yes 或 No)


2、现有模型的表现


通过对主流开源(如 Llama-2/3 7B/13B/33B/70B)和闭源模型(如 GPT-3.5/4)的测试发现:


  • 任务难度显著影响表现: 当任务的推理步骤或复杂度增加时,模型的正确率会明显下降。

  • 组合性差距(Compositionality Gap) 模型在回答任务的各个子问题时可能表现良好,但无法正确组合这些答案以得出最终结论。例如,模型能回答对 “【小明有苹果,小红有狗】小明有__(苹果)”(前文抄写),对 “苹果是一种__(水果)”(常识)和 “【小明、小红】里哪个不是小红?__(小明)”(否定排除)也毫无压力,但把它们组合起来:“【小明有苹果,小红有狗】小红没有一种__(水果)”,模型就很容易蒙圈(在不允许 CoT 的情况下)。

  • 模型规模与性能: 虽然更大的模型在一些任务上表现更好,但它们的 “组合性差距” 往往更明显,这表明增加模型规模并不能完全解决这个问题。


图片
▲ 图3. (a) 不同 LLM 在 GAR 上的表现。本图比较了生成任务(Gen.)和分类任务(Cls.)的平均准确率和正确答案的预测概率,随着模型规模增大,准确率和答案概率均呈正相关增长


图片

▲ 图3. (b 左) GPT-4 和 Vicuna-33B 在不同难度的生成式任务上的表现,通过增加非相同语义关系和引入否定语义变体调整任务难度;(c 中) 组合性差距随模型规模的变化, Llama 系列模型随规模增大而表现出更大的组合性差距,反映出 LLM 在组合关系推理中的不足;(d 右) 语法变化差距随模型规模的变化,句法变体对模型性能影响较小,表明模型对语法变化的敏感性较低


GAR 任务还有个很有趣的特点:尽管它对最先进的 LLM 都具有挑战性,它对人类来说却非常简单: 研究者评估,在具备必要知识(如国家 - 首都关系)的情况下,人类完成任务的准确率超过 90%。并且通过实验表明,LLM 回答错误并不是因为缺少这些事实性知识。 这揭示了 LLM 在组合关系推理上存在某些根本性缺陷。


3、模型内部的推理机制


为了更好地理解 LLM 如何解决 GAR 任务,研究者采用了归因补丁(attribution patching)的方法。这种技术可以帮助发现模型在推理过程中依赖的关键计算单元,特别是某些注意力头的作用。值得指出的是,这里无论任务难度、回路复杂度还是模型大小,都远超已有模型可解释性工作。研究发现:


1. 核心回路: Vicuna-33B 模型中存在一组通用的核心回路,能够被不同任务重复利用。


2. 注意力头的作用: 研究者识别出两类关键注意力头(True head 和 False head),它们的激活状态分别表示抽象的 “真” 和 “假” 的概念。进一步的实验表明,这些头在不同任务和模型中都扮演了重要角色,是组合推理能力的基础。


图片

▲ 图4. (a左) True head子回路 (b右) False head子回路

图片
▲ 图4. (c) 判别回路

图片
▲ 图4. (d) 肯定式生成回路

图片
▲ 图4. (e) 否定式生成回路


研究者发现,无论哪种回路,从更高的层次看,都包含我们称之为 “relational loop” 的由注意力边组成的闭环。这和构造 GAR 任务时的关系环是一致的。研究者认为 正是这些闭环的存在保证了可预测性。


4、通过干预关键注意力头提升LLM表现


注意到 True/False 头在图 4 的所有回路中都有出现并扮演了关键角色。为了验证 Vicuna 模型中的 True/False 头的通用性和有效性,并探讨其在不同模型规模上的一致性。


研究者选择了三个具有代表性的分类任务:由 GendersOfPersons 关系模式分别与 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三个关系模式组合作为数据源。


首先,利用 attribution patching 识别不同规模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 头。随后,在模型推理过程中对 True/False 头进行干预:当答案为 Yes/No 时,对 True/False 头施加干预,同时屏蔽 False/True 头,以观察其对模型判断的影响。


图片
▲ 图5. (a 左) 干预 Vicuna-7B 的 True / False heads 提升判别任务的准确率,干预后模型准确率分别提高了 17%/14%/6%,证明 True/False 头在各个模型中均表现出一致的效果;(b 右) True / False heads 的激活区分真 / 假陈述,通过可视化 True 和 False 头的激活值,发现它们有效地区分了真假语句。这表明,True/False 头编码了真假概念,并在 GAR 任务中起到了判断语句真伪的关键作用


5、研究意义


这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解,也为模型改进提供了启发和洞见。例如:


  • 优化注意力机制: 通过改进关键注意力头的功能,可以显著提升模型的推理能力,例如研究团队的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在类似 GAR 任务上的表现启发而来的。

  • 设计更具多样性的基准: 在真实世界任务中测试和改进模型的组合推理表现。


参考文献


[1] Da Xiao 1 Qingye Meng 2 Shengping Li 2 Xingyuan Yuan. Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.

编辑:于腾凯
校对: 林亦霖









请到「今天看啥」查看全文