自从大语言模型(LLMs)在各种任务中展现出卓越性能以来,其内部机制的解读已经成为领域内的热门话题。尽管许多研究人员从各个方面做出了尝试并得到了一些结论,但现阶段仍缺乏一个全面的视角来对现有成果进行系统化的归纳与总结。
为此,
上海创新算法研究院大模型中心联合清华大学、中国电信研究院
发布了综述论文《Attention Heads of Large Language Models》,整合了当前关于注意力头的研究进展,提出创新性的分析框架,从全局视角揭示注意力头的功能与工作机制,为研究者提供了清晰的方向参考和理论支持。该工作已在 Cell 旗下的数据科学子刊《Patterns》发表。
https://www.cell.com/patterns/fulltext/S2666-3899(25)00024-8
Github项目地址:
https://github.com/IAAR-Shanghai/Awesome-Attention-Heads
为什么关注“注意力头”?
在 Transformer 结构中,注意力头是其推理能力的关键组件,它通过选择性地关注输入序列中的相关部分,从而实现上下文理解。然而,不同注意力头在推理中的具体功能与协作方式尚不明确。深入研究注意力头不仅有助于揭示大模型的内部逻辑,还为大模型的可解释性研究提供了理论基础。
核心内容与创新亮点
全新四阶段认知框架
该综述创新性地提出了一个认知框架用于描述人类大脑解决特定问题的过程。该框架将人脑的推理过程分为
知识召回(Knowledge Recalling)、上下文识别(In-Context Identification)、潜在推理(Latent Reasoning)以及表达准备(Expression Preparation)
四个阶段。
这一框架不仅定义了每个阶段的具体作用,同时也指明了这些阶段之间存在的关联,为人脑相关机制研究提供了新的视角。
借助提出的认知框架,该综述首次将认知神经科学的原理融入大模型可解释性研究中,清晰定义了不同注意力头在推理过程中的具体功能。例如,某些注意力头专注于跨句子的上下文对齐,另一些则负责增强模型的记忆能力,还有一些承担了核心的推理工作。
这样的分类不仅帮助研究者更好地理解模型的内部机制,还为构建更高效的模型提供了设计灵感。
实验方法的系统化总结
该综述还深入梳理了探索注意力头机制的实验方法,分为 Modeling-Free 和 Modeling-Required 两大类。
前者不需要构建新的模型,仅在原模型的基础上做一些修改,如修改模型内部隐藏层的数值;后者则需要构建特定的模型来进行研究,根据是否需要进行额外的训练,可以再细分为 Training-Required and Training-Free 两大类。
评估基准的全面收录
为了验证某个注意力头是否具有特定的功能,该综述也总结了多种评估基准和评估数据集。
根据研究目的的不同,这些基准也可以被分为 Mechanism Exploration Evaluation 和 Common Evaluation 两大类,前者旨在评估特定注意力头的运作机制,而后者则评估增强或抑制某些特定注意力头的功能是否可以提高 LLM 的整体性能。这些评估基准为后续的相关研究提供了设计思路。
除了总结现有研究的进展,该综述也提出了当前研究的不足之处,例如缺乏对多个注意头的协作机制的研究,并展望了未来可能的发展方向,包括研究注意力头在复杂任务中的工作机制以及开发新的实验方法,为该领域的进一步的研究提供了参考方向。
总结
《Attention Heads of Large Language Models: A Survey》作为一篇全面系统的综述,填补了大模型可解释性研究中注意力头这一重要子领域缺乏系统归纳的空缺。
该综述创新性提出四阶段认知框架,详细分类了注意力头的功能,梳理了当前的实验方法,并总结了丰富的评估基准,为后续研究提供了坚实的理论基础和实践指导。除此之外,这篇综述也叙述了当前研究存在的不足,并指出了未来的研究方向,为相关领域的研究者提供了清晰的蓝图。