本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。
2024年5月,OpenAI发布了
GPT-4o
,模型能够
处理和生成文本、图像和音频
。GPT-4o 在语音、多语言和视觉基准测试中取得了最先进的成果,创造了语音识别和翻译的新纪录。
2024年7月,OpenAI发布了
GPT-4o mini
,取代 ChatGPT 界面上的 GPT-3.5 Turbo,API
成本显著降低
,适用于企业、初创公司和开发者。
2024年9月,OpenAI 发布了 o1-preview(
更适合推理任务
)和 o1-mini(
更适合编程任务
)模型,这些模型设计为在生成回答时花费更多时间思考,从而提高准确性。
2024年12月,OpenAI 发布了 o1,比 o1-preview 更智能、更快,功能更多(比如多模态功能)
2025年2月,OpenAI 发布了o3-mini,o3-mini在大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。
2025年2月9日,OpenAI发布全新的
智能体-deep research
,可以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整。
2025年2月9日,OpenAI表示内部已达到了GPT-4.5,表示接下来的重点是
高能力的推理模型、多模态以及智能体。
2025年2月28日,OpenAI发布GPT-4.5,最大、知识最丰富、情商最高的大模型。
*GPT-4o的o表示omni,意为“全知全能的”;o1/o3的o表示OpenAI.
从OpenAI的发展过程看大模型的发展趋势:
大模型是如何构建的?
引用论文 Large Language Models: A Survey [1]
-
Step 1
: 准备数据和数据清洗。数据集源于网页、书籍、博客、知乎、百科等。
-
Step 2
: 分词,转化为模型可用于输入的token
-
-
Step 4
: 进行模型预训练,即输入文本,让模型做next token prediction等任务。
-
Step 5
: 通过SFT等手段微调和指令微调, 教会大模型如何对话和完成特定任务
-
Step 6
: 通过RLHF等手段进一步对齐人类偏好,引入人类反馈,指导模型优化方向,生成更加符合人类需求,缓解有害性和幻觉的问题
-
S
tep 7
:
通过贪心搜索等生成策略,逐步生成下一个词
-
Step 8
: 优化与加速训练推理过程
核心的三个步骤: 预训练,有监督微调和人类反馈强化学习。
大模型发展至今,可以分为:
通用大模型
与
推理大模型
。
思维链
(Chain of Thought, CoT)通过要求/提示模型在输出最终答案之前,
显式输出
中间逐步的推理步骤这一方法来增强大模型的算数、常识和推理的性能。从该角度,可以将大模型的范式分为两类:
概率预测(快速反应模型)
和
链式反应(慢速思考模型)
,前者适合快速反馈,处理即时任务,后者通过推理解决复杂问题。
一个例子,问: 1+2+3+4+5+6+7+8+9+10=多少,直接告诉我答案
-
DeepSeek
(深度求索)是中国的人工智能公司,成立于 2023 年7月,由知名量化资管巨头幻方量化创立,专注于探索通用人工智能(artificial general intelligence,AGI)的实现路径,主攻大模型研发与应用。
-
DeepSeek-V3
是其开源的
通用自然语言处理模型
,对标GPT-4o.
-
DeepSeek-R1
是其开源的
推理模型
,擅长处理复杂任务,对标OpenAI o1 / o1-mini.
DeepSeek主流模型的竞品对标
直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持
联网搜索
与
深度思考
,同时支持
文本上传
,能够扫描读取各类文件及图片的
文字内容
。
2.3.1. DeepSeek模型发展史
资料来源: 彩云之南公众号,浙商证券研究所。[相关链接2]
我们常说的DeepSeek的大模型,是指当前主流的DeepSeek-V3和DeepSeek-R1。
2.3.2. V3与R1的对比与选择
总结: 不考虑调用成本,复杂推理任务(例如数学、代码等)或者希望获取思维链,优先DeepSeek-R1;内容创作、文本生成等优先DeepSeek-V3。
2.3.3. 竞品-OpenAI的大模型
*o3-mini的一个介绍: [3]
, o1-mini的一个介绍:
[4]
, GPT-4o的一个介绍:
[5]
, GPT-4o-mini的一个介绍:
[6]
2.3.4. 竞品-通义千问的大模型
引用: 通义千问官网[7]
2.4.1. 性能优越
*AIME 2024: 数学题,涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。
*MATH-500: 包含500个测试样本的MATH评测集,全面考察数学解题能力。
*GPQA: 研究生水平的专家推理,一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。
2.4.2. 训练便宜
结论:
DeepSeek-V3 较 OpenAI竞品,训练成本约为1/20~1/3
-
DeepSeek-V3训练成本
557.6万美元
,但不包括架构、算法等成本。以H800算力为例,训练消耗
278.8万个GPU小时
,
租用价格
为2美元/GPU小时;
-
根据第三方测算,OpenAI o1与训练需要3.2万张H100训练90天,需要
6912万H100 SXM GPU小时
,预计训练成本
数亿美元
。据此估算,DeepSeek-V3训练成本是Meta 的1/10,OpenAI 的1/20;
-
保守估计
,现在在美国预训练几千亿参数的一个模型其实也就不到2000万美元的成本,
DeepSeek 把成本差不多压缩到三分之一
。
*注, H800为针对中国市场定制,性能和价格略低于H100.
2.4.3. API调用便宜
结论:
DeepSeek-V3 API调用价格约为
OpenAI o3-mini的1/4
,为GPT-4o的约1/10.
但要高于GPT-4o-mini, 性能强于GPT-4o-mini.
以下为当前调用价格,
以
token为单位
,1个英文字符约0.3个token,1个中文字符约0.6个token,即
1 token可对应1-2个中文汉字
,或对应3-4个英文字符,或0.75个英文单词
,截止到2025年2月8日
*
o3 mini思维链:
2025年2月
7日,openAI公开o3 mini思维链,业界猜测非原始思维链,而是总结之后的思维链输出。
*
缓存命中:
在大模型 API 的使用场景中,用户的输入有相当比例是
重复的
。举例说,用户的 prompt 往往有一些重复引用的部分;再举例说,多轮对话中,每一轮都要将前几轮的内容重复输入。启用
上下文硬盘缓存技术
,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。
如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。
该技术不仅降低服务的延迟,还大幅削减最终的使用成本。
*MMLU(大规模多任务语言理解)是一种新的基准测试,涵盖STEM、人文、社会科学等57个学科,有效地衡量了综合知识能力
。
2.4.4. 其它因素
-
开源:
代码仓库选择了大气的MIT开源协议,模型适用自建
开源许可证
,完全不限制商用。
-
作为鲶鱼,让全球大模型竞赛进一步提速。
OpenAI发布全新推理模型o3-mini,并首次向免费用户开放推理模型。OpenAI CEO奥尔特曼首次承认,在开源上OpenAI站在了历史的错误一方。过去一周多的时间里,国内外大模型厂商从
“紧急上线”新模型,到降价、免费
,种种措施表明,在DeepSeek的刺激下,AI大模型行业的竞争正变得越来越激烈。
-
学术上:DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能
,这标志着研究界的重要里程碑。这是第一个验证的开发研究,可以纯粹通过RL来激励的LLMs推理能力,而无需SFT,解决了
CoT数据获取困难的问题
。
2.5. DeepSeek为什么又好又省-技术路线
2.5.1. 主要技术路线
参考: DeepSeek-v3技术文档 [8]
-
DeepSeekMoE:
混合专家模型,推理时,
仅动态激活部分专家
(37B 参数),而非全模型参数(671B 参数),减少计算负担。
-
引入
无辅助损失
的自然负载均衡来解决不同专家的负载均衡问题。
-
采用
MLA (Multi-Head Latent Attention)
架构,扩展了传统的多头注意力机制,引入
潜向量(latent variables)
,可以动态调整注意力机制,捕捉任务中不同的隐含语义。在训练中
减少内存和计算开销
,在推理中降低KV缓存占用空间,把显存占用
降为MHA架构的5%~13%
。
-
采用多步token预测 MTP(Multi-Token Prediction)
。一般LLM一次生成1个token,DeepSeek在特定场景下能
同时预测多个token
,来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯,也能减少一些重复中间步骤,在数学、代码和文本摘要场景能
提升效率
。
-
Cot:Chain of thought。
将复杂的问题拆分成小步的中间逻辑,细分逻辑链条。在训练阶段,DeepSeek-R1
用标注的Long CoT数据微调模型
,让模型生成更清晰的推理步骤,在强化学习中
用CoT设计奖励优化
,增强长链推理能力,并且在此过程中观察到了模型的反思(回溯推理路径)、多路径推理(能给出多个解)、aha时刻(通过策略突破瓶颈)等自发行为。
-
拒绝采样:
当针对推理的强化学习收敛后,研究者们使用训练得到的模型进行
拒绝采样
,生成多个答案,然后只选择最优的答案来继续训练,
生成新的监督微调(SFT)数据
。这个阶段的目的是提高模型在非推理任务(如写作、角色扮演等)上的表现。
-
FP8混合精度训练:
引入了FP8 混合精度训练框架,相比传统的FP16 精度,数据内存占用更少,但在一些算子模块、权重中仍然保留了FP16、FP32 的精度,节省计算资源。
-
底层通信优化:
专门开发了高效的跨节点全对全通信内核,优化对带宽的利用,保证数据传输效率,并能支持大规模部署。
-
DualPipe跨节点通信:
传统训练信息流水线会产生一些等待时间、有“流水线气泡”,DeepSeek设计了一个双重流水线,让一个计算阶段在等待数据传输时可以切换到另一批数据,充分利用空闲时间。
-
并行:
对硬件的极限使用. 在系统架构层面,DeepSeek就使用了专家并行训练技术,通过将不同的专家模块分配到不同的计算设备上同时进行训练,提升了训练过程中的计算效率。并对算力做极致压缩。
2.5.2. Mixture of Experts (MoE) 混合专家模型
MoE在NLP、CV、多模态和推荐系统中有广泛的应用(时间线上面的开源,下面的闭源)。
参考: A Survey on Mixture of Experts [9]
两种典型的MoE:
Dense MoE VS. Sparse MoE
往往会带来
负载均衡
问题,即专家工作量的不均衡分布,部分专家频繁更新,其它专家很少更新,大量研究专注于解决负载均衡问题。
DeepSeek的MoE结构: DeepSeekMoE
DeepSeek-R1: 1个共享的专家+63个路由的专家,每个专家是标准FFN的1/4大小.
2.5.3. Multi-Head Latent Attention (MLA)
2.5.4. R1的训练范式:冷启动与多阶段RL
参考: 知乎@绝密伏击 [10]
-
Step 1
冷启动
: 先收集一部分
高质量CoT冷启动数据
(约几千条),使用该数据fine-tune DeepSeek-v3-base模型,记为模型A;
-
Step2
大规模RL
: 使用A模型用GPRO训练,使其涌现推理能力,收敛的模型记为B;
-
Step3 : 使用B模型产生高质量SFT数据,并混合DeepSeek-V3产生的其它领域的高质量数据,形成一个高质量数据集;
-
Step4
再次SFT
: 使用该数据集训练原始DeepSeek-v3-base模型,记为模型C;
-
Step5
最终RL
: 使用C重新进行Step2,但是数据集变为
所有领域
,收敛后的模型记为D,这个模型就是DeepSeek-R1
-
Step6: 训练C模型的数据对小模型进行蒸馏,得到蒸馏的相对较小的模型。
2.6.1. 几个竞品的对比
项目/模型
|
DeepSeek-R1
|
GPT-4o
|
豆包
|
模型定位
|
专注高端推理和复杂逻辑问题
|
通用大模型,旨在处理多任务、多模态
|
中文环境,面向C端用户,轻量化、娱乐化
|
是否开源
|
是
|
否
|
否,商业化产品
|
擅长功能
|
复杂推理,例如数学、代码
|
通用语言生成、
多模态理解
|
拟人化聊天、创意内容生成、图像生成
|
定制化程度
|
高;用户可修改模型行为并针对特定用例进行优化
|
低;主要通过API调用于提示工程进行微调
|
低;提供API服务,灵活性低
|
硬件要求
|
温和;部署对硬件要求相对适中
|
不适用;仅通过OpenAI基础设施上的API提供
|
作为云端产品,无需自建硬件,后端依赖云计算集群
|
多模态支持
|
暂无,可用Janus-Pro多模态大模型
|
强多模态能力,支持文本、图像等输入
|
一定的多模态支持
|
用户群体
|
开发者、企业用户、专业研究者
|
全球阻留用户、企业客户和开发者,高端市场
|
普通消费者、内容创作者,字节生态
|
2.6.2. DeepSeek的缺点
-
DeepSeek-V3在一些层面上是有
偏科
的。它的
创意生成相对薄弱
,开放性任务表现一般,结构化思维的能力远高于发散思维
。甚至在
专业领域比通用领域表现的更好。
-
DeepSeek-R1 专注于推理
,在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力不及 DeepSeek-V3。
-
民间测试: 在经典的编写重力小球弹跳可视化脚本的实验中,从
物理学的遵循程度来讲
,与OpenAI o3-mini相比
还是有差距的
。
2.6.3. DeepSeek的影响
推动了大模型开源进程,作为鲶鱼,让全球大模型竞赛进一步提速。
DeepSeek提示词库[11]
2.7.1. DeepSeek使用的不同点
2.7.2. R1的正确打开方式
对于推理大模型,存在欺骗技巧失效和“启发式提示”失效的问题:
参考: 知乎田威AI[
12
]
2.7.3. DeepSeek使用建议
参考链接:
[1]https://arxiv.org/abs/2402.06196
[2]https://www.fxbaogao.com/insights/detail/399
[3]https://aliyuque.antfin.com/zeyuwang.wzy/hexfpw/介绍一下%20OpenAI%20o3-mini
[4]https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
[5]https://openai.com/index/gpt-4o-system-card/
[6]https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
[7]https://tongyi.aliyun.com/
[8]https://arxiv.org/abs/2412.19437
[9]https://arxiv.org/abs/2407.06204
[10]https://www.zhihu.com/question/10902308423/answer/98590834435
[11]https://api-docs.deepseek.com/zh-cn/prompt-library/
[12]https://www.zhihu.com/question/10821868607
通过融合MySQL和ClickHouse的数据同步能力,用户可以在一个可视化窗口中简单灵活地配置和管理实时数据同步,这为业务报表统计、交互式运营分析和实时数仓构建提供了便利。
点击阅读原文查看详情。