本文提出了一种单义性的新proxy,即基于特征解耦相关性的方法,并通过引入相应的正则项验证了proxy的有效性。该方法不仅提升了模型的单义性,还增强了其表示的敏感性,从而为模型的解释性和稳健性提供了新的视角。希望此研究能够激发更多关于模型可解释性与优化相结合的探索,并在表示学习领域带来更深刻和本质的发现。
论文题目:
Encourage or Inhibit Monosemanticity? Revisit Monosemanticity from a Feature Decorrelation Perspective
论文链接:
https://arxiv.org/abs/2406.17969v1
一、动机
随着大规模语言模型(LLMs)在自然语言处理(NLP)任务中取得了显著进展,对其内部工作机制的理解变得至关重要。近年来的研究逐渐将重点放在对模型基本单元的解释性上,尤其是神经元的单义性(monosemanticity)。所谓单义性神经元,是指那些专门与某一特定概念紧密相关的神经元,它们与输入特征形成一对一的映射,较容易被人类理解。这种一对一映射的特性使得单义性神经元在解释性和可理解性方面具有重要意义。
许多研究者通过稀疏自动编码器结合字典学习方法,在大语言模型中识别单义性问题[1][2]。然而,由于稀疏自动编码器的训练计算成本较高,以及生成解释时需要大量的人力。另外,尽管在单义性探测方面取得了一定成功,但关于单义性与LLMs模型容量(如稳健性和对齐能力)之间的关系,仍然存在争议。
近期有研究表明,减少单义性有助于提升模型在多任务处理中的表现,而其他研究则认为,单义性可以减少非正交特征的interference, 导致学到的特征重要性不高。因此,本文从特征解耦(feature correlation)相关的角度重新审视单义性问题,并提出通过特征解耦性相关正则化来进一步提升模型的单义性和能力。
二、方法
2.1 建立神经元单义性与特征解耦性的关联
为应对大规模检测单义性带来的挑战,并且定量地研究单义性对模型能力的影响,我们首先提出在理论层面上特征的解耦性可以作为单义一个近似[proxy](Monosemanticity是神经元层面,而feature是指模型中间激活/向量化表示)。理论上的近似推导如下:
在一个线性的模型中,
和
是两个不同模型神经元权重。如果神经元是Monosemantic,则它们的correlation矩阵是一个对角阵
.
也就是说当神经元Monosemantic,特征也是正交/解耦的。
2.2 前期实验观察
我们通过实验观察monosemanticity与模型大小,与特征解耦性的关系。
(1) 模型单义性与模型大小之间无稳定关联
不同大小GPT2模型单义性
我们使用论文[3]中提出的单义性近似指标
, 其中
都是transformer结构模型中 MLP中第一个线性矩阵的权重,去近似衡量不同GPT2的单义性。结果发现模型大小与单义性程度之间没有稳定关联,例如GPT2-neo(2.7B)的单义性比medium(335M),large(774M)都小。
(2) DPO提升神经元单义性与特征解耦性。
DPO训练之后,GPT2模型单义性变化
DPO训练之后,LLama模型特征解耦性变化
上图1显示经过direct preference optimisation (DPO)[3]之后,GPT2 模型神经元的单义性有所增长,尤其是在比较浅的层上。由于llama类的模型MLP层中没有b偏置,这个单义近似指标我们并没有在llama上测量。
上图2刻画了特征解耦性在llama2-hf-7b模型经过DPO之后的特征解耦性(1-不同特征之间的余弦相似性})。我们在三个不同属性的数据集上做DPO之后,发现模型特征的解耦性都有了明显的提升(虚线高于实线)。
总结:DPO处理过后的模型(优化模型),同时出现了神经元单义性和特征解耦性的提高,一是可以说明神经元单义性可能是更优模型的偏好 二是,结合以上的理论分析,可以进一步说明单义性与解耦性的positive correlation。
2.3 特征正交正则项
基于以上的分析,我们提出用特征解耦/正交的正则项来提高模型的单义性和能力。
其中
是特征/激活值,
是identity矩阵。加入该正则项到training loss中是为了最小化特征相关矩阵与单位矩阵之间,达到进一步解耦。
三、实验结果
3.1 实验设置
我们选择了三个llama系列的模型,Llama2-7b-hf, Llama2-7b-chat-hf以及Llama3-8b-instruct。选择了三个含有不同属性attribute做alignment的小数据集,分别是detoxicity[4](去毒),cognition reframe[5](认知转变)和Sycophancy[6](谄媚)。我们采用GPT-3.5作为二分类器对这生成的句子做判断是否含有预期的属性。我们将特征解耦正则项加到DPO原有的训练目标上。
3.2 实验结果
3.2.1 特征解耦正则项能提升alignment效果
Table1. Alignment结果
我们对比了in-context learning, supervised fine tuning, DPO 以及SimDPO. 并且对比了另外一种用于特征稀疏化的正则项
.实验结果表明特征解耦正交项带来的增益最大。
3.2.2 特征解耦正则项improvement source是提高表达敏锐性,从而增加reward margin
Figure. 特征解耦正则项能增大reward margin
为了进一步探究解耦正则项带来的增益来源,我们更为细致地研究了DPO的原理和缺陷。
上行公式是DPO的优化目标,其中
,
分别是一对偏好和不偏好的回复。该公式建立Bradley-Terry模型中提出的用pointwise 奖赏来近似pairwise偏好。
其中
是pointwise的奖赏函数。由于非线性激活
的存在,即使
很小,也可能造成
近似到最大值1[7]。这样会导致的不好结果就是模型会“懒得”区分
,也就是它们的表达很接近。而我们的特征解耦正则项刚好是用于增大特征特异性的,从上图红色实线/虚线均高于蓝线就可以看出这个效果。