专栏名称: 百度智能云
聚焦人工智能(AI)、大数据(Big Data)、云计算(Cloud),以“ABC”三位一体战略,帮助企业客户实现数字化、智能化转型。百度云,智能,计算无限可能!
目录
相关文章推荐
白鲸出海  ·  “重”关税时代到来,海外仓或成出海必选项 ·  13 小时前  
百度智能云  ·  如何在百度百舸部署满血版DeepSeek-V ... ·  3 天前  
白鲸出海  ·  2025年1月成功出海的中国手游:《Whit ... ·  昨天  
白鲸出海  ·  中国互联网出海一周头条 ... ·  2 天前  
51好读  ›  专栏  ›  百度智能云

手把手教你三步极速蒸馏DeepSeek R1,效果媲美OpenAI o3 mini!

百度智能云  · 公众号  · 科技公司  · 2025-02-11 20:47

正文



在今年1月末,DeepSeek再度抛出了一个重磅消息:“蒸馏小模型超越OpenAI o1-mini”。按官方公布数据,通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项任务上表现与OpenAI o1-mini相当。


这一技术突破不仅让业界眼前一亮,更为开发者提供了一条低成本、高效率的模型优化路径: 将R1的推理能力蒸馏到小型模型中,比直接在这些小型模型上应用强化学习效果会更好。 要知道,蒸馏过程不需要对模型架构进行复杂修改,减少了开发成本,并且比从头训练一个同规模的模型要节省大量的计算资源。


如今, 开发者通过百度智能云千帆ModelBuilder,只需要3个小时,就能把强大的DeepSeek-R1模型知识蒸馏到轻量级模型中,让自己的AI应用性能大幅提升,成本还超低。


本文将深入解析如何利用百度智能云千帆ModelBuilder完成全流程的模型蒸馏能力,并通过实战展示DeepSeek-R1蒸馏再训练轻量级模型ERNIE Speed的过程和效果。


模型蒸馏技术:让大模型“瘦身”

在深入实战之前,我们先来聊聊模型蒸馏( Model Distillation)。


什么是模型蒸馏(Model Distillation)技术?


通俗来讲,模型蒸馏就是让一个效果较好的、庞大“教师模型”,将知识“传授”给一个较小的“学生模型”的训练,使得学生模型在参数量和计算复杂度较低的情况下,尽可能接近甚至超越教师模型的效果。


千帆ModelBuilder模型蒸馏原理


选择“数学竞赛”,使用千帆ModelBuilder一键蒸馏DeepSeek-R1

为什么选择数学竞赛? 原因很简单:


一,数学问题通常具有唯一的正确答案,便于直接对比模型输出,评估其准确性。


二,数学题的解题过程能清晰地展示模型的“思考”路径,帮助判断模型是否真正掌握了关键推理能力。


在这个场景下,我们选取百度自主研发的轻量级大模型ERNIE Speed作为学生模型,通过公开数据集GSM8K和SCQ5K进行了测试。


蒸馏前后模型效果:

  • 模型效果对比:取四个模型分别在公开数据集GSM8K、SCQ5K下的效果评估对比



蒸馏前模型的数学解题能力表现一般,在GSM8K、SCQ5K数据集上的表现分别为84%和55%。然而,蒸馏后的模型在GSM8K和SCQ5K上分别达到95%和81%。可以看出, 蒸馏后的模型可基本追平DeepSeek-R1,并且超过OpenAI o3-mini。


  • 回复效果对比:我们还可以通过一个具体的数学问题,直观感受蒸馏前后模型的差异。


左右滑动查看更多


通过对比,可以看出, 蒸馏后的模型在思考能力和推理深度上有了显著提升。


在结果精准性方面,蒸馏后的ERNIE Speed与“老师”DeepSeek-R1在效果上基本打成平手,性能亦实现大幅提升。


在思考与推理方面,蒸馏后的ERNIE Speed部分保留了DeepSeek-R1模型长达数万字的反思与验证过程,在推理时能通过“深度思考”模式展现完整的推理路径,可对复杂问题进行深入、全面的分析。


基于千帆ModelBuilder的全流程工具链实现高效、低成本蒸馏

那么,要达成以上蒸馏效果,需要多长时间训练? 并且多少成本呢?


  • 训练时长:仅需约3小时;
  • 训练成本:最低仅需900元。
  • 模型使用成本:蒸馏后的模型由于其更轻量,在部署时可使用更少的资源达到更高的QPS,大幅降低企业的模型使用成本。

通过百度智能云千帆ModelBuilder的全流程工具链,开发者仅需3小时就可以完成DeepSeek-R1的蒸馏,并将ERNIE Speed的性能提升至接近DeepSeek-R1的水平。

以下是具体操作步骤:

>>第一步-基于DeepSeek-R1萃取数据 :采样公开数据集s1及Math-Step-DPO的部分数据,使用千帆ModelBuilder预置的DeepSeek-R1 API进行推理,获取9000条原始数据 。为进一步提升数据质量,需要进一步筛选过滤掉过长数据、结果不准确数据,使用数据洞察与处理功能进行快捷筛选与处理,最终得到7701条高质量的SFT训练数据。


新增推理任务


数据洞察与处理功能


>>第二步-选择轻量模型精调 :千帆ModelBuilder预置了丰富的基础模型支持精调,但由于在复杂问题上思考数据长,因此选择ERNIE-Speed-Pro-128K模型进行SFT训练。在训练过程中本次训练迭代轮次设置为3,学习率设置为3e-5,序列长度设置为32768,保证训练效果。


创建训练任务


训练参数配置







请到「今天看啥」查看全文