专栏名称: 阿里云大数据AI平台
阿里云大数据AI平台依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的大数据和AI能力体系。帮助提升AI应用开发效率,促进AI在产业中规模化落地,激发业务价值。
目录
相关文章推荐
51好读  ›  专栏  ›  阿里云大数据AI平台

MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调DeepSeek-R1蒸馏模型

阿里云大数据AI平台  · 公众号  ·  · 2025-02-27 08:00

正文

请到「今天看啥」查看全文



01

整体概要
基于阿里云云原生大数据计算服务 MaxCompute 以及大数据开发 治理 平台 DataWorks 实现使用自定义数据集微调 DeepSeek-R1 蒸馏模型主要分为两大部分,一部分是基于人工智能平台 PAI 的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以 MaxCompute+DataWorks+PAI 为基础,快速微调 DeepSeek-R1 蒸馏模型。

02

如何微调 DeepSeek
进入人工智能平台 PAI 控制台,左侧导航栏进入 快速开始 > Model Gallery ,选择模型。下面我们以 DeepSeek-R1-Distill-Qwen-7B 为例,进行微调训练。(其他模型微调也可以基于这个流程)
进入 DeepSeek-R1-Distill-Qwen-7B 模型页面后,点击“训练”按钮,核心是基于自有数据集进行模型调优,自有数据集可以选择存在对象存储 OSS 的数据,也可以选择存在 MaxCompute 的数据,下面我们以存在 MaxCompute 的数据的自有数据集为例进行 DEMO 演示。
训练数据集选择自定义数据集-新建数据集。
存储类型选择云原生大数据计算服务 MaxCompute。
导入 MaxCcompute 的项目名和表名进行关联,进行挂在路径配置。
然后再选择模型输出路径。
最后选择相应的资源配置,及参数配置,点击“训练”就可以基于自有数据集进行微调了,一起试试吧。

03

如何构建自有数据集,接入 DeepSeek 进行微调
在人工智能平台 PAI 上使用自定义数据集,主要需要关联 MaxCompute 的项目和数据表。首先创建 MaxCompute 项目:打开 MaxCompute 控制台 ,点击左侧导航栏【工作区】-【项目管理】,选择【新建项目】
创建 MaxCompute 表: 打开 DataWorks 控制台 https://dataworks.console.aliyun.com/overview) ,左侧导航栏选择【数据开发与运维】->【数据开发】,进入数据开发界面,界面左侧导航栏【表管理】新建表,详细建表过程可参考文档(https://x.sm.cn/Did8TjZ)。

自定义数据集写入

表结构新建好并提交发布后,您可以使用 DataWorks 通过 数据集成任务 MaxCompute 节点任务 向 MaxCompute 表中写入数据,DataWorks 深度适配数十种大数据及 AI 计算引擎进行数据集成,支持自定义数据集的开发与调度。此外,DataWorks 还支持通过 上传数据 功能将本地数据导入 MaxCompute 表中。当然,也可以使用 DataWorks 对写入的数据进行二次开发。

04

微调 DeepSeek-R1 蒸馏模型部署及应用
通过 MaxCompute 和 Dataworks 创建完项目和表后,即可开始使用 PAI 平台开始使用自定义数据集微调 DeepSeek-R1 蒸馏模型,更多模型微调参考教程可参考人工智能平台 PAI 的部署及应用实践。
部署DeepSeek-V3、DeepSeek-R1模型:https://x.sm.cn/1CRfEiX
使用PAI一键部署通义千问模型:https://x.sm.cn/DkmxHSQ
通过EAS一键部署MLLM多模态大语言模型应用:https://x.sm.cn/3VBGl7k
欢迎各位开发者前来体验,如有需求,可扫描下方二维码加入用户交流群进行交流。
/ END /

更多推荐






点击「 阅读原文 」了解 MaxCompute 更多信息







请到「今天看啥」查看全文