被李飞飞成本不到150元的推理模型s1震撼到了,甚至他们只花了26分钟...研读后发现秘诀只有一个:蒸馏。简单来说,就是将谷歌Gemini 2.0的推理能力蒸馏到阿里Qwen2.5模型中,得到s1,效果媲美DeepSeek-R1和OpenAI o1。
不得不赞叹
模型蒸馏
的强大,这种将大模型知识迁移到小模型上的技术,在降低训练和部署成本方面遥遥领先。这也是它成为s1秘诀和DeepSeek核心技术的原因,非常贴合当下“技术普惠”的发展趋势,研究前景明确。
当前,模型蒸馏仍然是
深度学习领域的热点
,但成熟度比较高。如果论文er们想有所创新,建议聚焦细分方向,比如蒸馏算法效率、稳定性提升、与量化/剪枝等技术的协同优化。我整理了
9篇
模型蒸馏前沿论文,
顶会(尤其CVPR)多,基本都有代码,大家可以参考这些思路找idea。
扫码
添加小享,回复“
模型蒸馏
”
免费获取
全部
论
文+开源代码
Logit Standardization in Knowledge Distillation
方法:
论文提出了一种新的模型蒸馏方法,通过Logit标准化预处理,解决了传统蒸馏中教师和学生模型共享温度导致的Logit匹配问题,使学生模型能更好地学习教师模型的内在关系,显著提升了蒸馏性能。
创新点:
-
首次提出教师和学生在知识蒸馏过程中可以使用不同的温度值,而不必共享一个全局预定义温度。
-
提出了一种Z-score逻辑标准化预处理方法,作为一种简单的插入式改进,能够显著提升现有逻辑值基础上的知识蒸馏方法的效果。
Adversarial Diffusion Distillation
方法:
论文提出了一种名为ADD的模型蒸馏方法,将预训练的扩散模型转化为仅需1-4步采样即可生成高质量图像的快速模型。通过结合对抗训练和分数蒸馏损失,ADD在单步生成中超越了现有快速生成方法,并在四步内超过了其教师模型SDXL的性能。
创新点:
-
提出了一种名为对抗扩散蒸馏的方法,将预训练的扩散模型转化为快速、少步的图像生成模型。
-
ADD实现了单步高质量图像生成,开启了基础模型在实时生成中的新可能性。
-
研究中使用了冻结的预训练特征网络和一组可训练的轻量级判别器头,这种设计增强了生成模型的评估能力。
扫码
添加小享,回复“
模型蒸馏