Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
论文链接:
https://arxiv.org/abs/2402.12865 在现代自然语言处理(NLP)中,Transformer模型已成为处理语言任务的主要架构,尤其是在生成模型方面,如生成预训练 Transformer(GPT)。理解这样的语言模型(LM)如何学习和记忆信息是深度学习研究的重要目标之一。特别是反向传播过程在模型更新权重的核心作用,使得对这一过程的深入分析变得尤为关键。 反向传播算法通过计算每一层的梯度,更新模型中的权重。这一机制不仅使模型能够学习新的信息,也为研究人员提供了解释模型行为的机会。近期的可解释性研究已提出了多种方法,试图通过可视化权重和隐藏状态来解读语言模型的内部运作,尤其是在前向传递阶段。然而,关于反向传递的梯度如何影响模型学习和知识存储的探讨仍然较为稀缺。 本研究的动机在于 扩展现有的可解释性方法 ,尤其是将其应用于 LM 的反向传播过程。通过分析反向传播中的梯度矩阵,研究者能够更全面地理解信息在模型中的流动。 此外,本论文还提出了一种新的思路, 通过将梯度矩阵映射到词汇空间,揭示 LM 在学习新知识时的内在机制。 通过这一方法,研究者希望能够明确地理解模型如何在多层次上进行信息存储和记忆。 图 1 展示了梯度在 MLP 层前向与反向过程中对模型更新的影响,具体表现为梯度(以绿色表示)和权重(以蓝色表示)之间的相互作用。在本研究中,尤其关注如何将这些梯度信息有效地应用于模型的知识更新与编辑中。 ▲ 图1
通过本研究的深入探讨,期待不仅能够提升对 Transformer 模型内部运作的理解,还能为未来的模型知识编辑技术奠定基础,为 NLP 领域的发展提供新的思路和方法。 在理解语言模型(LM)的可解释性方面,已有多项研究对 Transformer 模型的解释方法进行了探索。Belinkov 和 Glass(2019)概述了分析神经语言处理的不同方法,强调了解释 LM 的重要性。特别是,在反向传播的上下文中对梯度的分析被认为是一个新的贡献。
现有的方法主要集中在前向传递的隐状态和权重的映射上。例如,nost algebra is t(2020)提出的 Logit Lens 方法,通过将 LM 的隐状态转换为词汇概率,展示了模型在生成过程中的表现。这种投影有助于理解 LM 在生成过程中逐渐构建输出的模式。
然而,虽然之前的研究通过观察完整的梯度矩阵探讨了模型在训练或微调过程中学习到的模式,但产品之间的关系仍显得不够清晰。
近期的研究(Ilharco et al., 2022; Gueta et al., 2023; Tian et al., 2023)开始反向工程梯度在模型行为中的作用,探讨了通过对梯度与其前向传递输入部分之间的关系进行分析,可以获取哪些信息。这样的工作为深入理解报错和学习提供了基础,但对于如何将这些视角扩展到反向传播的梯度分析则较少涉及。
在 LM 编辑的研究中,Dai et al.(2022)指出,激活特定习语的神经元并通过注入目标嵌入来修改它们的效果最为明显。最近的一些高级编辑方法(Mitchell et al., 2021; Meng et al., 2022, 2023)也着手解决如何有效进行模型内部知识的编辑与转变。
与以往研究不同的是,本研究关注于将反向传播中的梯度分析引入可解释性研究中。具体而言,Katz 和 Belinkov(2023)的方法与目前研究中的方法在应对和解释反向传播的梯度方面有所不同,这使得本研究的贡献显得尤为突出。
整体而言,本研究为如何通过反向过程对 LM 进行梯度的分析提供了新的视角,为理解其内部机制开辟了进一步的研究空间。
在本节中,深入介绍 Transformer 模型的架构,特别是生成预训练 Transformer(GPT)模型的工作机制,同时探讨模型输入、权重矩阵、前向传递和反向传播的过程,包括梯度矩阵的计算以及如何通过链式法则更新权重。
3.1 Transformer模型 生成预训练 Transformer(GPT)是一个自回归架构,由多个 Transformer 块组成。给定一个包含 个标记的提示序列,GPT 需要预测一个标记。该架构在所有层中保持统一的嵌入维度 。 首先,输入标记通过嵌入矩阵 映射为输入向量 ,在最终阶段,解码矩阵 将最后一个 Transformer 块的输出投影到词汇中的每一个标记分数。 每个 Transformer 块由一个注意力层(Attn)和一个多层感知器(MLP)层组成,二者通过残差连接相连。注意力机制负责将来自每个先前输入的信息传输到当前的前向传递中。我们在本研究中不深入剖析该模块,更多细节请参阅 Radford 等人的工作。 MLP 层(也称为前馈网络,FFN)由两个全连接矩 阵 和 组 成,并在两者之间应用激活函 数 : 因此, 该 - t h Transformer 块对其输入隐藏状 态 执 行的计算为: 3.2 反向传播
反向传播是将链式法则应用于计算导数并更新深度学习网络模型权重的过程。该过程始于模型执行前向传递,生成预测 ,后与期望目标比较,通过损失函数 量化差异。在此之后,开始反向传递,逐层计算梯度。 对于模型中某一层在前向传播中计算出 (其中 是该层的中间输入和输出),可以通过链式法则直接计算其梯度矩阵:
我们可以直接计算 。另一个导数 被称为 的向量-雅可比积(VJP),它可以被视为反向传递的隐藏状态,即后续层向后投影的误差因子。通常使用负对数似然(NLL)损失: 这里 表示 的归一化概率 , 是其第 个值(目标标记的概率)。对于最后一层的输出 ,可以通过以下方式直接计算其 (VJP): 对于模型中某个早期层 ,由于无法直接计算其输出 的 VJP,我们可以假设已经计算了层 的 VJP。如果各层是连续的层,层 的输出为层 的输入,因此有: 总结而言,在深度学习模型中,损失函数 相对于给定层 的梯度是该层前向传递输入 和其输出 的 VJP 的外积:
梯度的低秩性与Logit Lens方法 梯度作为低秩矩阵 在本文中,研究者探讨了梯度矩阵的低秩特性。根据引理4.1,对于给定长度为 的输入序列和参数化矩阵 ,由反向传播生成的梯度 是一个秩不超过 的矩阵。这一发现不仅揭示了梯度矩阵的结构,还为如何理解和解释这些梯度提供了理论基础。 具体地,当考虑到模型的输入时,梯度矩阵的计算可以表示为每个输入与其对应的VJP(Vector-Jacobian Product)的外积和:
在此模型中,每个梯度矩阵的秩由实现 和 的线性独立性决定,因此最大秩为 。值得注意的是,在变换器模型的最后一层,梯度的秩通常为 1。 ▲ 图2. 梯度矩阵的计算通过 的外积形成。每一行由相同的值组成,上半部分的描述强调了它的跨度是 ,而下半部分则强调了它的跨度是 。将Logit Lens应用于梯度矩阵
在分析中,研究者专注于多层感知器(MLP)层,这是最近关于识别和编辑存储在这些层内知识的重要领域。MLP模块由两个紧密连接的矩阵( 和 )构成。 具体来说, 将输入从 映射到 ,而 则将其映射回 。由于梯度矩阵的维度高且难以全面分析,因此研究者通过观察每个梯度矩阵的外积形式将其转换为一组较小的向量。 每个由 形成的矩阵可以同时从两个视角进行解释:一方面作为 的跨度(线性组合),另一方面作为 的跨度。研究者利用这种双重性,通过聚焦于 个向量的线性组合来分析梯度。 此外,研究者指出 的梯度相应地使用 作为其跨度集合, 的梯度则使用 作为其跨度集合。这一选择不仅因尺寸限制而受到影响,也因其数学上的合理性而备受重视。
通过这种分析,研究者能够更深入地理解 MLP 层中存储信息的复杂机制,以及如何通过构建特定的跨度集合来提高对梯度矩阵的解释能力。
知识存储与模型编辑的机制
在本节中,我们将深入探讨如何利用反向传播中的梯度更新 MLP 层的权重,并介绍一种称为“印记与偏移”(imprint and shift)机制的双阶段过程。该机制通过结合前向传递的输入和目标嵌入,利用梯度信息在 MLP 层中存储信息。此处将结合实验结果来分析这种机制在模型知识更新中的有效性。 根据第四章的分析,每个 MLP 层的梯度表示为正向传递的输入向量和反向传递的 VJP(向量雅可比乘积)的组合。具体地,梯度在更新过程中的表现可以表示为:
在这个表达式中, 是前向传播的输入,而 是相应的 VJP。根据引理 5.2,当使用反向传播更新 LM 的 MLP 层时,会发生以下两个主要阶段的变化: 印记阶段 :在这一阶段,输入 被加入或减去到 的神经元中,从而调整每个对应的 神经元的激活程度。这个过程赋予了 MLP 层对于给定输入的“印记”。 偏移阶段: 此阶段涉及 的输出进行调整,具体表现为从 的神经元中减去 VJP ,以放大在启用 VJP 值后输出的影响。 5.2 实验结果与机制的有效性
通过实验发现,此“印记与偏移”机制在知识更新过程中表现出显著的有效性。例如,根据实验证据, 和 的更新过程可以通过以下方式有效地实施: 当使用前向传递的输入 进行更新时, 中的神经元体现了对最有可能的词汇进行强化。 对于 的更新,则是通过减去 来实现,这相当于将之前概率较低的词汇提升为可能性更高的目标。 这种方法的成功之处在于,尽管只依靠单次的前向传递,仍能在 MLP 层中有效地存储和调整信息。图 3 清晰地展示了该机制的工作过程。 总体来看,该机制为理解如何利用反向传播在大规模语言模型中管理和存储知识提供了新的视角。同时,这一发现也为后续在知识编辑任务中的应用奠定了基础。
本 节展示了使用 GPT2 和 Llama2-7B 模型进行的实验结果,分析梯度的秩及其对模型更新的影响。实验通过 100 个提示和其对应的编辑目标从 CounterFact 数据集中随机抽取。针对每个模型和提示,仅进行一次反向传播,未采用批处理或优化器的缩放。
6.1 梯度的秩
为了验证引理 4.1,实验测量了每层梯度矩阵的秩。结果如图 4 所示,对于每个包含 个标记的提示,模型的梯度矩阵几乎总是精确地具有秩 。 唯一的例外是最后的 MLP 层,其秩为 1,与第 4 节的预测相符。尽管在图中并不明显,但是每隔几十个例子,确实会出现梯度的秩降低一或两个的现象,这显示出 或 之间的线性依赖。 ▲ 图4 6.2 Logit Lens的梯度解释
接下来,展示了通过 LL 方法对梯度的解释,如图 5 和附录 D 所示。每个图的单元格显示选择的跨越集合( 的 和 的 )在特定层和从提示用于编辑的标记中得到的 LL 投影。 在 前向传递的研究中,LL方法考察了隐藏状态的投影,突显了在层间投影标记的逐步变化。类似地,图 5 展示了反向传递的 VJP 的逐步变化。在大多数层中,LL 揭示了梯度代表了“巴黎”的嵌入。其他与“巴黎”相关的投影内容如“马克龙”,即法国总统的姓氏。
V JP 的范数通过颜色表示,在顶层中,只有对“巴黎”标记的有意义更新存在。部分低层的编辑结果则较难解释,这与前向传递的 LL 情况类似。 6.3 不同提示段落的影响
实验发现,尽管所有提示的标记都对梯度构造做出贡献(方程 8),但其中大部分贡献是由接近于零范数的 VJP, ,完成的。此外,通过对梯度矩阵中每个单个神经元的 LL 进行分析,发现所有投影的标记都与在第 4.2 节所展示的跨越集合中仅能识别出的 1-2 个向量相关。 为了解不同标记和层在梯度重构中的相对重要性,实验将每个提示的标记划分为若干片段,并绘制了其 的平均范数。该实验使用 GPT2-xl 进行,结果在图 6 中展示,附录 E.1 中有 的结果。 显 而易见,主要更新发生在两个主要区域:(1)由初始层中的主题标记贡献,和(2)第三层约四分之一位置的最后提示标记。大多数其他标记在整个层中表现出接近零的范数,表明它们几乎没有对模型更新的实际影响。研究人员假设,对最后主题标记的变化可能涉及通过注意力传输该主题标记的信息,更加显著。
6.4 VJP与目标标记的表现 考虑到每个 VJP 的 LL 秩(标记为输入的标记的片段)与目标标记的秩,图 7 展示了通过 VJP 的最后提示标记 ,其秩一贯将目标标记排名为最低概率的标记。编辑提示中其他标记的 VJP 也表现出类似行为,通常将目标标记视为不合理。 该结果表明,在前几层和最后层中,某些 的 VJP 表现出目标标记的排名下降,研究人员将其归因于它们范数接近于零的现象。如附录 A 展示,模型最后一层中,除最后提示的标记,其他标记均在该层出现零向量 。 ▲ 图7 6.5 编辑方法的有效性
实 验还考察了基于“偏移”机制的编辑方法。通过分析在 1000 个样本中应用于 CounterFact 的结果,表 1 展示了编辑的有效性(EFF)、生成流畅性(N-gram)和新目标预测的准确性(PAR),并与当前先进的人工智能编辑方法进行了对比。 尽 管在推广(即对同义句的编辑)和特异性(见附录)方面本方法不如 ROME 表现出色,但其运行复杂度显著降低,无需多步(迭代)执行。实验结果表明,研究人员可能找到了一些“捷径”,通过直接将标记注入到语言模型的层中有效地实现微调。
本 节总结强调了实验结果对未来研究的启示,包括对模型的进一步优化和编辑方法的探索。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧