专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

Cell子刊《Patterns》最新综述：大语言模型Attention Heads的可解释性研究

PaperWeekly · 公众号 · 科研 · 2025-02-12 19:46

正文

自从大语言模型（LLMs）在各种任务中展现出卓越性能以来，其内部机制的解读已经成为领域内的热门话题。尽管许多研究人员从各个方面做出了尝试并得到了一些结论，但现阶段仍缺乏一个全面的视角来对现有成果进行系统化的归纳与总结。

为此， 上海创新算法研究院大模型中心联合清华大学、中国电信研究院 发布了综述论文《Attention Heads of Large Language Models》，整合了当前关于注意力头的研究进展，提出创新性的分析框架，从全局视角揭示注意力头的功能与工作机制，为研究者提供了清晰的方向参考和理论支持。该工作已在 Cell 旗下的数据科学子刊《Patterns》发表。

文章地址：

https://www.cell.com/patterns/fulltext/S2666-3899(25)00024-8

Github项目地址：

https://github.com/IAAR-Shanghai/Awesome-Attention-Heads

为什么关注“注意力头”？

在 Transformer 结构中，注意力头是其推理能力的关键组件，它通过选择性地关注输入序列中的相关部分，从而实现上下文理解。然而，不同注意力头在推理中的具体功能与协作方式尚不明确。深入研究注意力头不仅有助于揭示大模型的内部逻辑，还为大模型的可解释性研究提供了理论基础。

核心内容与创新亮点

全新四阶段认知框架

该综述创新性地提出了一个认知框架用于描述人类大脑解决特定问题的过程。该框架将人脑的推理过程分为知识召回（Knowledge Recalling）、上下文识别（In-Context Identification）、潜在推理（Latent Reasoning）以及表达准备（Expression Preparation）四个阶段。

这一框架不仅定义了每个阶段的具体作用，同时也指明了这些阶段之间存在的关联，为人脑相关机制研究提供了新的视角。

详尽的注意力头分类

借助提出的认知框架，该综述首次将认知神经科学的原理融入大模型可解释性研究中，清晰定义了不同注意力头在推理过程中的具体功能。例如，某些注意力头专注于跨句子的上下文对齐，另一些则负责增强模型的记忆能力，还有一些承担了核心的推理工作。

这样的分类不仅帮助研究者更好地理解模型的内部机制，还为构建更高效的模型提供了设计灵感。

实验方法的系统化总结

该综述还深入梳理了探索注意力头机制的实验方法，分为 Modeling-Free 和 Modeling-Required 两大类。

前者不需要构建新的模型，仅在原模型的基础上做一些修改，如修改模型内部隐藏层的数值；后者则需要构建特定的模型来进行研究，根据是否需要进行额外的训练，可以再细分为 Training-Required and Training-Free 两大类。

评估基准的全面收录

为了验证某个注意力头是否具有特定的功能，该综述也总结了多种评估基准和评估数据集。

根据研究目的的不同，这些基准也可以被分为 Mechanism Exploration Evaluation 和 Common Evaluation 两大类，前者旨在评估特定注意力头的运作机制，而后者则评估增强或抑制某些特定注意力头的功能是否可以提高 LLM 的整体性能。这些评估基准为后续的相关研究提供了设计思路。