DeepSeek 简直可以称为华人之光,最近在 AI 领域风头一时无两,聊天的时候不说下 DeepSeek 咱都不好意思开口。它不仅在性能上超越了 OpenAI 的 ChatGPT,还在 App Store 下载排行榜中位居第一,这是连 Claude 都没有过的。DeepSeek 的成功,离不开其独特的训练方式和技术创新。下面我们一起看看 DeepSeek 的训练过程、工作原理以及优化与创新之处。
训练语言模型通常分为两个阶段:预训练和后训练,DeepSeek 也不例外,也是这两个阶段。
预训练阶段
DeepSeek 在预训练阶段的目标是让模型学习语言的通用规律。
这一阶段主要通过预测互联网上的海量文本数据中的下一个 Token 来实现。预训练阶段处理的数据量通常以数万亿级别的 Token 计,数据主要来源于网络抓取,如 Common Crawl 等公开数据集。通过这种方式,模型能够学习到语言的基本模式和结构。
预训练阶段的复杂性主要体现在训练过程的演进方式和不同损失函数的选择上。
许多预训练技术都源于自然语言处理领域的文献。指令微调就是其中最古老,但至今仍被广泛采用的技术,也被称为监督微调,缩写为 IFT 或 SFT。
预训练阶段的核心是自回归预测,即预测文档序列中的下一个 Token。
预训练可以扩展到非常大的规模,并且效率很高。预训练通常会使用单一的损失函数,并投入大量的计算资源。研究人员构建高效的系统,最终得到的就是基础模型。
后训练阶段
预训练阶段完成后,DeepSeek 会进行后训练,以使模型具备更符合人类期望的行为。后训练阶段包括两种主要的方法:指令调优和基于人类反馈的强化学习。
指令调优的核心思想是在模型中加入特定的格式,使其能够理解并响应指令。
例如,当模型接收到“请解释罗马帝国的历史”这类问题时,它能够以信息量丰富且易于理解的方式给出答案。指令调优阶段的关键在于训练模型理解和遵循指令的格式。
基于人类反馈的强化学习是另一种后训练方法,它的核心在于使模型的回复不仅格式良好,而且更符合人类的阅读偏好。
这一过程通过收集人类的成对偏好数据来实现,最初的数据标注工作由人工完成,现在也开始引入 AI 进行数据标注。偏好微调使用对比损失函数,让模型学习区分好答案和坏答案,并学习人类偏好的模式。
基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
-
项目地址:https://github.com/YunaiV/ruoyi-vue-pro
-
视频教程:https://doc.iocoder.cn/video/
DeepSeek-V3 和 DeepSeek-R1 都是 LLM,但它们的工作方式有所不同。
DeepSeek-V3 是一个指令模型,类似于 ChatGPT。
它通过接收到的指令生成相应的文本回复。
当用户向 V3 提问时,它会快速生成 Token,这些 Token 会组合成易于理解的人类语言答案,通常会采用 Markdown 列表的形式,并带有格式,突出显示答案的核心要点。V3 可以生成数十甚至数百个 Token,Token 通常是一个词,对于常用词或长词的一部分,它可能只是一个子词。
DeepSeek-R1 是一个推理模型。
当用户向 R1 提问时,它会首先进行大量的推理过程,然后再生成最终答案。
R1 生成的 Token 中首先出现的是大量的思维链过程,模型在生成答案之前,会先解释问题,分解问题,所有这些推理过程都会以 Token 的形式快速生成。在完成推理过程后,R1 模型的语气会发生转变,开始给出最终答案,答案的形式与 V3 等模型类似。
基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
-
项目地址:https://github.com/YunaiV/yudao-cloud
-
视频教程:https://doc.iocoder.cn/video/
为了让模型生成质量更高的回答,AI 模型开发者会向用户界面展示更多的推理过程,比如计划问题解决步骤,或者解释答案的逻辑。由此催生了推理模型,目前的主要参与者有 DeepSeek-R1、DeepSeek-Reasoning 以及近期 OpenAI 发布的 o3-mini 等推理模型。
推理模型会把中间的思考路径拿出来呈现给大家看,这正是推理模型这类赛道未来的发展方向之一。
DeepSeek-R1 是直接把推理模型通过强化学习加指令微调的混合方式训练出来,这种模型结构在设计上具有明显的优势,特别是在需要精确性和可解释性的领域,但在可扩展性、自适应能力和处理复杂场景方面存在一定的局限性。