专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

爱可可-爱生活 · 【[85星]VideoRAG：超长视频理解与 ... · 14 小时前

爱可可-爱生活 · 通俗版解读查看图片-20250207091030 · 昨天

新智元 · GPT-4o多模态核心大佬离职OpenAI！ ... · 昨天

爱可可-爱生活 · 【[160星]Project ... · 2 天前

宝玉xp · 谢谢支持，来自我昨天写的《AI ... · 2 天前

51好读 › 专栏 › 新智元

3天把Llama训成Mamba，性能不降，推理更快！

新智元 · 公众号 · AI · 2024-09-05 12:21

主要观点总结

近日，来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成Mamba模型，并设计了新的推测解码算法，加速了模型的推理。文章介绍了整个研究的过程，包括模型转换、知识蒸馏、监督微调、定向偏好优化、推测解码和硬件性质优化等。

关键观点总结

关键观点1: 研究背景

Mamba模型受到广泛关注，但训练大尺寸Mamba模型成本高昂，因此研究人员寻求通过锁住知识并将Transformer微调成Mamba模型来解决问题。

关键观点2: 模型转换

研究人员结合渐进式蒸馏、监督微调（SFT）和定向偏好优化（DPO）等方法，成功将Llama等大型Transformer模型提炼成Mamba模型。

关键观点3: 推测解码算法

由于Mamba模型的结构特性，不能直接应用Transformer的推理加速方案。因此，研究人员设计了全新的推测解码算法，并结合硬件性质实现基于Mamba的推测解码。

关键观点4: 实验结果

研究人员成功将Zephyr-7B和Llama-3 Instruct 8B等模型提炼为线性RNN模型（混合Mamba和Mamba2），性能与蒸馏前的标准模型相当。此外，通过优化算法，实现了在Ampere和H100架构的GPU上的推理加速。

关键观点5: 训练方法

研究过程采用三阶段蒸馏方法，包括使用伪标签进行知识蒸馏、监督微调以及定向偏好优化等。此外，通过融合内核和调整实现方式优化了硬件特定优化。

正文

新智元报道

编辑：alan

【新智元导读】近日，Mamba方面又搞出了有意思的研究：来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型，并且设计了新的推测解码算法，加速了模型的推理。

先来看一张其乐融融的图片（一眼AI）：

右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。

至于到底能不能其乐融融，咱就不管了，之所以有此场景，是因为Mamba方面又搞出了有意思的研究：

——如何把Llama变成Mamba？

论文地址：https://arxiv.org/pdf/2408.15237

代码地址：https://github.com/jxiw/MambaInLlama

近日，来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作，将Llama这样的大型Transformer提炼成了Mamba模型，

并且成功在Mamba架构上应用了带有硬件感知的推测解码算法，提高了整个模型的推理速度。

为什么要把Llama变成Mamba？

因为从头开始训练一个大模型太贵了。

Mamba也火了这么长时间了，相关的研究每天都有，但自己训练大尺寸Mamba模型的却很少。

目前比较有名的是AI21的Jamba（进化到了1.5版本，最大398B，MoE），以及NVIDIA的Hybrid Mamba2模型（8B）。

不过世界上有那么多成功的Transformer大模型，而知识就包含在这些模型参数里。

如果能够锁住知识，同时把Transformer微调成Mamba，不就解决问题了？

在本文中，研究人员结合渐进式蒸馏、监督微调（SFT）和定向偏好优化（DPO）等方法达成了这一目标。

光是变大还不够，

在性能匹配Transformer的前提下，速度也要够快才行。

Mamba凭借固定的推理开销，在长序列中的优势明显，但Transformer这边也是有推理加速方案的，比如推测解码。

而由于Mamba本身的结构特性，不能直接应用这种方案，所以作者设计了全新的算法，并结合硬件的性质来实现基于Mamba的推测解码。

最终，研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型（混合Mamba和Mamba2），且性能与蒸馏之前的标准模型相当。

整个训练过程只使用了20B的token，效果却能够与使用1.2T个token从头开始训练的Mamba 7B模型，以及使用3.5T个token训练的NVIDIA Hybrid Mamba2模型相媲美。

从 Transformer 到 Mamba

在介绍Mamba 2的时候我们讲过，线性RNN（或SSM）跟线性注意力是一回事。

所以可以根据x，B，C与V，K，Q的对应关系直接复用注意力中的投影矩阵。

额外的参数包括SSM需要的A矩阵和Δt（由x投影得到），这就完成了基本的参数初始化。

之后就是SSM的运算过程，再通过投影和累加得到输出。

模型架构和训练

下图给出了模型的架构，因为Transformer的知识存在于MLP层，所以冻结这部分参数。

除了用线性RNN层（Mamba）替换掉注意力头，还有一些组件需要处理，比如跨头共享键和值的分组查询注意力（GQA）。

知识蒸馏（Knowledge distillation，KD）是一种常用的压缩技术，用来训练模仿较大模型（teacher）行为的较小网络（student）。

根据经验，这里采用逐步替换Attention层的策略，先是每2层进行蒸馏，然后每4层继续蒸馏......

监督微调

有两种常见的蒸馏方法。一种方法是使用word-level的KL散度，此时训练student模型去匹配teacher模型输出的完整概率分布。

第二种方法是序列级知识蒸馏（SeqKD），直接使用teacher模型的输出作为ground truth来训练student模型（也称为伪标签）。

这里θ是student模型的可训练参数，α和β分别控制序列和词的loss项的权重。

偏好优化

LLM指令调优的第二阶段是使其符合用户偏好。这个阶段，使用一组期望的偏好对来改进模型的输出。

优化的目标是使奖励模型最大化，同时保持产生的输出接近参考模型。

通常，参考模型使用上一步监督微调后的模型。这里因为是蒸馏，直接可以用teacher模型：

偏好模型的奖励函数定义取决于所使用的方法，本文采用直接偏好优化（DPO），通过直接梯度更新有效地到达优化目标。

DPO表明，对于给定的提示x ，如果我们能够获得preferred和dispreferred两种输出，就可以将这个优化问题重新表述为：

这种优化可以在序列级别上执行，让teacher模型和student模型一起对preferred和dispreferred输出进行评分，然后反向传播给student模型。

推测解码

经过上面的一套小连招，模型转换就搞定了，下面开始想办法应用Transformer那边的推测解码。

推测解码（Speculative Decoding）可以简单理解为下面这张图。

Transformer做推理的时候，除了要处理不断变长的KV cache之外，计算效率也是个问题。

因为显卡的设计是计算高于访存的，具体到计算单元就是做矩阵乘法。

而推理的时候每次只能进入一个词向量，显卡的很多计算就被浪费了。

推测解码给出的解决方案是，使用一个小模型做生成，然后拿显卡多余的计算做验证。

小模型跑得快，可以一口气生成很多输出向量，但是可能效果差一点。这时候用大模型作为验证，一次计算之前生成的很多个向量。

所以小模型串行跑得快，大模型可以并行计算跑得也快，遇到验证不通过的就直接回滚，整体上提高了推理的速度。

Transformer可以方便地回滚，因为KV cache跟时间是一一对应的，但Mamba这边只有一个当前的中间状态ht，你总不能把所有中间状态都存起来吧。

为了解决这个问题，研究人员设计了下面的算法：

简单来说就是每次使用小模型（draft model）生成一组输出，然后大模型（verification model）验证这一组输出，根据验证匹配的位置来更新需要保存的中间状态。

我们可以从下面的伪代码了解详细的过程：

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【[85星]VideoRAG：超长视频理解与生成的利器，让AI轻-20250207193815

14 小时前

爱可可-爱生活 · 通俗版解读查看图片-20250207091030

昨天

新智元 · GPT-4o多模态核心大佬离职OpenAI！联创Schulman跳槽前CTO初创

昨天

爱可可-爱生活 · 【[160星]Project Lakechain：基于AWS的云-20250205211220

2 天前

宝玉xp · 谢谢支持，来自我昨天写的《AI 搜索进化：深度体验 OpenAI-20250205144238

2 天前

半岛晨报 · 每逢过年胖三斤！爸妈做的饭菜，果然和外面那些妖艳货不一样！

8 年前

赛先生 · 拍了那么多年的心电图，现在就教你怎么看！｜推广

7 年前

马桶历史 · 达康书记的朋友圈

7 年前

麦子熟了 · 施一公清华演讲：最不重要的素质是智商

7 年前

亿恩 · 这7个亚马逊热销品，美国家庭已抢疯（单价不到16美元）

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!