专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

LightTransfer：将你的LLM轻松转为Hybrid model，增强o1-like长文本生成能力

深度学习自然语言处理 · 公众号 · · 2025-02-05 16:22

正文

最近hybrid model的有效性已被广泛验证（比如minimax-01和gemma2等）。该篇论文研究了一个非常有趣的主题：如何将预训练好的dense transformer（如qwq）转化为hybrid model。具体来说，提出了一个轻量转化算法——LightTransfer💡，将50%层的full attention替换为sliding window attention。

作者：Wzl
来自：深度学习自然语言处理
链接：https://arxiv.org/abs/2410.13846
主页: https://sites.google.com/view/lighttransfer

动机和观察

（1）从什么角度实现？

一个高效且自然的建模方式：大规模预训练的LLM+少部分的修改+少部分的训练 -> Hybrid model。
一种直接且有效的做法：将full attention layers中部分standard attn layer替换为efficient attn layer。

（2）efficient attn layer实现？

引入KV cache compression的代表做法：streaming attn+sink，实现sliding window attn（即保留每一层开头和结尾对应的KV对）。

（3）部分layer替换？

某些layer的attn是dense的，替换为sliding window attn对attn的破坏比较大。从图中可以看出，一些层的注意力并不具有高稀疏的特点，所以不适合用sliding window attn的方式。

方法：LightTransfer

（1）两种模式

LightTransfer-test ：通过fig.3的框架，识别出lazy layers，直接在推理阶段替换这些lazy layer为efficient attn layer。
LightTransfer-train ：为了适应o1类模型的复杂长文本生成场景，lazy layer被替换之后，进行SFT。

（2）test/train的设计符合观察

原文中的基于Figure2的第二点观察为：“Layer behavior remains consistent for a given input”（可以理解为pd过程lazy layer不变）。说明了在prefill阶段选择好的lazy layer在decoding阶段仍然适用，因此不需要在decoding阶段更换lazy layer，并且这也更有利于保证train模式下替换lazy layer之后，SFT的稳定性和有效性。