图3: 在回路中,MLP14类似的点代表着第14层的MLP层;L18H14代表着第18层的第14个注意力头,点之间的褐色连线代表这他们之间的信息流动。
回路发现
:简单的来讲,回路的发现通过消融节点之间的边(即参数置为0),判断这个边对于知识是否为关键边。对于上图的回路来说,一个事实三元组“(Franch, official language, French)” ,让模型补全”The official language of France is “这句话,预测客体French,在这个过程中,消融组件之间的边,判断边对于这个事实的重要性,保留重要的边,从而构造出了关于这个事实的回路。(具体实现请查看代码)
知识回路揭示隐式神经知识表征
图5:Target Entity at Last Position表示”French“这个词在”is“位置时输出logits的rank。Target Entity at Subject Position表示“French”这个词在“France”位置时输出logits的rank—越低rank越高。Prob. of Entity表示实体的可能性—越高可能性越大。
图5:Target Entity at Last Position表示”French“这个词在”is“位置时输出logits的rank。Target Entity at Subject Position表示“French”这个词在“France”位置时输出logits的rank—越低rank越高。Prob. of Entity表示实体的可能性—越高可能性越大。
从图5可以看出,在MLP17层以后可以的看到Object Entity的可能性开始渐渐上升。让我们注意到图四a,连接MLP17的节点由L14H13、L14H7等。在图四b中可以发现,L14H13的输出logits更加关注“Language”这类关系型token,L14H7则是将信息从主体“France”流动到最后一个位置。
对于同一个问题“Platform Controller Hub is created by Microsoft.”,原始模型在L15H3更加聚焦于一些firmware这类词,并且正确答案“Intel”的可能性一直为0。而对于ROME编辑过的模型从15层开始“Intel”的可能性渐渐上升。而对于FT编辑方法,“Intel”从第0层就开始上升。