专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
四川发布  ·  官宣!川渝将新增7座车站 ·  15 小时前  
四川发布  ·  四川省地质灾害应急响应升级为一级! ·  昨天  
自贡网  ·  2.8亿“大项目”!涉及62.4万人次—— ·  昨天  
四川日报  ·  王某(男,60岁),被当场抓获! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

模型解释新方向!浙大揭秘LLM隐层之间的知识流动!

深度学习自然语言处理  · 公众号  ·  · 2024-11-11 22:55

正文

作者:bhn

论文 :https://arxiv.org/pdf/2405.17969 - NIPS2024
代码 :https://github.com/zjunlp/KnowledgeCircuits

本文中:

  • knowledge editing=知识编辑;
  • machine unlearning=遗忘学习;
  • detoxification=祛毒;
  • knowledge circuits=知识回路;

背景

大量的参数赋予了大模型强大的能力的同时也带来了一些缺陷,如幻觉,不安全的行为。由于模型复杂的知识存储机制,这些问题的解决变得十分复杂。

目前的工作进行两个方向的尝试,一种是认为事实以键值对的形式存储在mlp中,在这个基础上人们使用 知识编辑,遗忘学习,祛毒 等方法对模型的mlp层修改,以缓解修复模型的缺陷。

另一种思路认为,知识不是单独的存储在某一区域的,而是由不同的组件共同构成的,本文中称为 知识回路。

这篇论文的工作分为四部分 发现Transformer架构中的知识回路: 解释 知识回路 的概念和知识回路是如何发现的。

知识回路揭示隐式神经知识表征 :通过一个简单的案例分析 知识回路 是如何解释知识表征的。

知识回路阐明知识编辑的内部机制 :通过 知识回路 解释对 ROME FT 这两种 知识编辑 方法进行解释。

知识回路促进解释语言模型行为 :通过 知识回路 解释模型的幻觉和上下文学习背后的原因。

本文的工作和结果分析

  1. 发现Transformer架构中的知识回路

    知识回路 :相对于知识编辑关注知识的存储区域,知识回路更关注信息的流动。将语言模型看作一个由组件(input,output,attention_head,mlp)为节点,连接组件的边(残差流),共同组成的一个计算图,信息在这些组件中流动。

    下图为模型回答“The official language of France is ”这个问题时,所经过回路,具体的回路发现在下面介绍。

图3: 在回路中,MLP14类似的点代表着第14层的MLP层;L18H14代表着第18层的第14个注意力头,点之间的褐色连线代表这他们之间的信息流动。

图3: 在回路中,MLP14类似的点代表着第14层的MLP层;L18H14代表着第18层的第14个注意力头,点之间的褐色连线代表这他们之间的信息流动。
回路发现 :简单的来讲,回路的发现通过消融节点之间的边(即参数置为0),判断这个边对于知识是否为关键边。对于上图的回路来说,一个事实三元组“(Franch, official language,  French)” ,让模型补全”The official language of France is “这句话,预测客体French,在这个过程中,消融组件之间的边,判断边对于这个事实的重要性,保留重要的边,从而构造出了关于这个事实的回路。(具体实现请查看代码)

  1. 知识回路揭示隐式神经知识表征
图5:Target Entity at Last Position表示”French“这个词在”is“位置时输出logits的rank。Target Entity at Subject Position表示“French”这个词在“France”位置时输出logits的rank—越低rank越高。Prob. of Entity表示实体的可能性—越高可能性越大。

图5:Target Entity at Last Position表示”French“这个词在”is“位置时输出logits的rank。Target Entity at Subject Position表示“French”这个词在“France”位置时输出logits的rank—越低rank越高。Prob. of Entity表示实体的可能性—越高可能性越大。
从图5可以看出,在MLP17层以后可以的看到Object Entity的可能性开始渐渐上升。让我们注意到图四a,连接MLP17的节点由L14H13、L14H7等。在图四b中可以发现,L14H13的输出logits更加关注“Language”这类关系型token,L14H7则是将信息从主体“France”流动到最后一个位置。

从这个简单的例子,该论文猜想,不同的注意力头起不同的作用,L14H13这类头更加关注关系信息,而L14H7则是在主体位置提取关系信息。而MLP层则是结合之前组件提供的信息,提高目标token的最高rank。

  1. 知识回路阐明知识编辑的内部机制

对于同一个问题“Platform Controller Hub is created by Microsoft.”,原始模型在L15H3更加聚焦于一些firmware这类词,并且正确答案“Intel”的可能性一直为0。而对于ROME编辑过的模型从15层开始“Intel”的可能性渐渐上升。而对于FT编辑方法,“Intel”从第0层就开始上升。

从ROME图中Subject Position的曲线总是在Last Position上面,并且他们在一起下降,并且在15层开始慢慢上升(L15H3已经开始获取了真确的答案)。可以得出ROME方法会将正确的信息添加到主体token位置,并且由注意力头进行信息提取。







请到「今天看啥」查看全文