本文介绍了关于DeepSeek模型的影响、创新策略、使用方式和未来趋势等内容。DeepSeek模型在科技界引起广泛关注,其影响力不仅体现在对手的反应、资本市场的影响,还体现在各行业对其的部署和融合。文章深入解析了DeepSeek模型的技术特点,如MOE架构策略、混合精度框架等,并探讨了其多种使用方式,如直接访问官网、使用Cherry Studio等工具进行本地部署等。此外,文章还分析了DeepSeek模型掀起的变革,包括小模型成为主流、使用合成数据进行训练等趋势。
DeepSeek模型引起广泛关注,对手感到惶恐,资本市场出现大幅波动,国外机构纷纷部署或集成DeepSeek的相关模型。
DeepSeek采用创新策略,如引入MLA、使用DeepSeek-MoE架构策略、混合精度框架等,计算速度快,成本低,推理能力强。
DeepSeek有多种使用方式,可以直接访问官网,使用Cherry Studio+DeepSeek API进行本地部署,或者使用Cherry Studio+第三方云厂商DeepSeek API。此外,还可以结合知识库和Cursor等工具进行复杂应用。
DeepSeek的推出掀起了新的变革,未来小模型将成为主流,使用合成数据进行训练也将成为主流。此外,AI模型将自我迭代,通过自我出题、自我检查和合成数据等方式不断提升能力。
内容来源:
量子教育,企业人才培养优质内容及创新解决方案服务商。
分享嘉宾:
陈旸,阿里云MVP,清华大学计算机博士。
高级笔记达人
|
李云
责编
| 柒
排版
|
拾零
第 8840
篇深度好文:7662
字 | 20 分钟
阅读
笔记君说:
春节前夕,DeepSeek-R1模型公布开源,下载量迅速登上了免费榜榜首。随后,引起了美国资本市场的大波动,算力巨头英伟达出现了股价暴跌17%的罕见跌幅……
开源后的DeepSeek到底对资本、科技产生了何种影响?是什么让其具有这么大的能量?我们如何拥抱DeepSeek带来的新AI时代?继DeepSeek之后,AI将有什么新的趋势?
这篇文章,将由清华大学计算机博士、阿里云MVP(人工智能领域最有价值专家)陈旸为我们一一解读上述问题。
1.对手惶恐,资本青睐
2025年1月20日,DeepSeek-R1模型正式公布;1月26日在中国区、美国区苹果App Store中的免费榜上同时冲到了第一名。
随后,美国资本市场出现大幅波动,标准普尔
500指数在10天内跌幅接近10%。英伟达股票在1月27日当天暴跌了17%,美股主要科技公司
(英伟达、微软、Meta、亚马逊等)
市值共计蒸发上万亿美元。
在
DeepSeek-R1出现前,算力是大模型训练的关键因素,美国限制中国使用英伟达的显卡,因此大家普遍会认为美国在AI大模型的领先优势是“断层式”的,这也是美国对华科技限制采取“小院高墙”战略的底层逻辑。
DeepSeek用少量的显卡训练出了与其媲美的模型,相当于打破了美国对华在人工智能领域的战略限制。
就连
OpenAI的CEO山姆奥特曼也重新思考了OpenAI的开源战略,迅速推出了o3-mini模型,在使用中开放了思考推理过程。
在这之前,
OpenAI并不是完全开源的,我们只能使用o1模型,现在我们也可以使用其o3模型进行更深入的思考。
通过
OpenAI o3 mini与DeepSeek R1的使用对比,可以发现DeepSeek-R1的思考时间更长,思考逻辑更完整,推理结果更好。
同时,
DeepSeek会将推理过程完整地展现出来,而OpenAI以前不会展示思考的过程,而思考的过程其实非常有价值的。
今年
1月,美国宣布“星际之门”计划,软银向OpenAI投资400亿美元,用于OpenAI对星际之门的承诺,投后估值达3000亿美元;而具有对标OpenAI能力的DeepSeek,同样受到国内近百家资本的青睐,对其表达了投资意向,可以预见DeepSeek的估值将会上到一个新的高度。
2.DeepSeek开源,行业争相部署
在
DeepSeek宣布开源R1之后,各个行业都开始集成或部署DeepSeek的相关模型。
国内的华为云、百度智能云、阿里云、腾讯云、京东云、火山引擎以及三大运营商等云平台都相继部署了
DeepSeek的R1/V3等模型。
国外的亚马逊、微软、英伟达、
AMD等平台也快速地将DeepSeek R1/V3模型部署或集成到相关的产品和服务上。
在产业端,吉利、岚图、东风、广汽、智己、长城、宝骏、零跑等车企也宣布与
DeepSeek进行融合,未来智驾上也可以体验到与DeepSeek的交互。
金融领域,国泰君安、国金证券、兴业证券、广发证券等证券机构进行了本地化部署和调试,应用于行业研究、市场研判、风险管理、信息检索、文档处理等多种场景。
当然,部署与开发完成还需一定的测试过程,但也体现出各个行业不甘落后的状态,也说明
与先进的大模型融合使用将是大势所趋。
1.DeepSeek的完全版与蒸馏版
DeepSeek完全版的尺寸是671B,由于采用创新的MOE架构,在推理过程中激活少部分参数,因此推理速度更快,所需训练资源更小。
DeepSeek蒸馏版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多个尺寸。它选了两个开源模型进行训练,国内是Qwen2.5,国外则选用了Llama,蒸馏模型更小更快,但能力相对弱一些。
对于性能要求不太高、
GPU资源有限的企业,蒸馏版是一个更优选择。因为完全版需要的显存是496GB,而R1
:
1.5B只需要2G显存、R1
:
7B也只需要8G显存,最高的R1
:
70B蒸馏版也只需要128G显存,大幅降低了私有化部署的资源要求。
2.蒸馏技术路线,让DeepSeek R1性能大幅提升
在
R1模型之前,DeepSeek推出V3通用模型,在推理速度上相较历史模型有了大幅提升。一度在大模型主流榜单中,位于开源模型榜首,与世界最先进的闭源模型也不分伯仲。
而
V3模型最大的特点是训练成本极低,需要的显卡数量和训练时间较于OpenAI只是一个零头。
2024年12月,V3模型正式推出,但当时并没有太大波澜。
而以
V3模型为基础,通过新的奖励机制GRPO
(group relative policy optimization)
,并使用规则类验证机制自动对输出进行打分,在一个多月时间内训练出了DeepSeek-R1模型,性能堪比GPT-o1模型,使R1迅速火出了圈。而R1模型与V3模型相比,其性能也有了大幅提升。
R1模型遵循MIT License
(
一
种非常宽松的开源许可协议,允许用户自由地使用、修改、分发和商业化软件或模型。)
,允许用户通过蒸馏技术借助R1训练其他模型。
相比之下,
Meta Llama的License相对严格,虽然LLaMA3是开源的,但许可协议限制了商业用途和对模型的修改,比如新的模型如果使用LLaMA,需要名称上带有LLaMA标识。
DeepSeek-R1上线API,对用户开放思维链输出,因此一经发布,多家企业就宣布融合DeepSeek-R1的各个版本,因为是完全开源的模型,在版权上就减少了不少风险。
在开源
DeepSeek
-R1-Zero和
DeepSeek
-R1两个660
B
模型的同时,通过
DeepSeek
-R1的输出,蒸馏了6个小模型,其中32B和70B模型在多项能力上实现了对标0penAlo1-mini的效果.
3.DeepSeek的创新策略及产生的效果
① 创新策略
第一,引入
MLA
(Multi-Head Latent Attention)
。
在
“All you need is attention”的背景下,传统的多头注意力
(MHA,Multi-Head Attention)
的键值
(KV)
缓存机制事实上对计算效率形成了较大阻碍。缩小KV缓存
(KV Cache)
大小,并提高性能,在之前的模型架构中并未得到很好的解决。
DeepSeek引入了MLA,一种通过低秩键值联合压缩的注意力机制,在显著减小KV缓存的同时提高计算效率。低秩近似是快速矩阵计算的常用方法,在MLA之前很少用于大模型计算。
从大模型架构的演进情况来看,
Prefill和KV Cache容量瓶颈的问题正一步步被新的模型架构攻克,巨大的KV Cache正逐渐成为历史
(实际上在2024年6月发布的DeepSeek-V2就已经很好的降低了KV Cache的大小)
。
第二,创新使用了
DeepSeek-MoE架构策略。
V3使用了61个MoE
(Mix of Expert混合专家)
block,虽然总参数量很大,但每次训练或推理时只激活了很少链路,训练成本大大降低,推理速度显著提高。
第三,
DeepSeek采用混合精度框架。
在不同的区块里使用不同的精度来存储数据。我们知道
精度越高,内存占用越多,运算复杂度越大。
DeepSeek在一些不需要很高精度的模块,使用很低的精度FP8储存数据,极大的降低了训练计算量。
② 创新策略带来的效果
第一,计算速度快,成本低。
架构设计方面:
DeepSeek MoE架构在推理时仅激活部分专家,避免了激活所有参数带来的计算资源浪费;MLA架构通过降秩KV矩阵,减少了显存消耗。
训练策略方面:在训练过程中采用多
token预测
(MTP)
目标,即在每个位置上预测多个未来token,增加了训练信号的密度,提高了数据效率
。
在训练中,对于占据大量计算量的通用矩阵乘法
(GEMM)
操作,采用FP8精度执行;同时,通过细粒度量化策略和高精度累积过程,解决了低精度训练中出现的量化误差问题。
第二,推理能力强大。
强化学习驱动
:
DeepSeek-R1通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言推理等任务上表现出色,性能与OpenAl的o1正式版相当。
长链推理
(CoT)
技术
:
DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,能够逐步分解复杂问题,通过多步骤的逻辑推理来解决问题。
1.DeepSeek的多种使用方式及其表现
第一种,直接访问
DeepSeek官网。
虽然免费,但由于访问量过大,表现极不稳定。
第二种,在
GitHub上下载cherry Studio
(或者一些其它工具)
,使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不稳定的情况。
第三种,使用
Cherry Studio+第三方云厂商DeepSeek API做本地部署。
使用第三方云厂商的DeepSeekAPI稳定很多,相比官方API价格也便宜。
Cherry部署之后,除了DeepSeek,还可以使用OpenAI、月之暗面、智谱清言等API。
假设我们来解一道高考数学题:设集合
A中的元素皆为无重复数字的三位正整数,且元素中任意两者之积皆为偶数,求集合中元素个数的最大值是多少?
这是一个非常复杂、难度较大的问题,如果采用通义千问等通用大模型,大概率得不出正确答案,而
DeepSeek通过分步骤的长链深度思考,一步步给出了正确答案。
2.简单应用:DeepSeek+知识库
以构建投资研究框架为例,我们来展示用
DeepSeek+知识库的使用。
第一步,配置
embedding模型。嵌入模型,把知识库进行向量化,并进行快速检索;选择嵌入模型
(可以使用硅基流动)
,在Cherry Studio设置中,设置对应的API Key。
第二步,整理知识库。在
Cherry studio的知识库中,配置投研报告知识库,上传相关投研报告
(处理知识库主要用到文字,所以知识库支持PDF、PPT、Excel、word等多种文本文件)
。完成后,你就在本地有了知识库。
第三步,在智能对话助手中,选择对应的知识库。
最后一步,针对知识库进行提问。可以看到,
DeepSeek会进行长链思考并展现思考过程。
需要注意,虽然云厂商不会主动收集你的数据,但并不能
100%保证数据安全,对于企业的敏感数据
(如财务、营销数据)
,建议进行本地私有化部署。
3.复杂应用:DeepSeek+Cursor
知识库并不能完全展现
DeepSeek的深度思考能力,借助于其它工具
(如Cursor)
可以完成更复杂的任务,如物理世界的小球碰撞实验。
首先,我们在
Cursor的【File->Preferences->Cursor Settings】中设置DeepSeek-r1和DeepSeek-v3模型。
然后,在
openAI API Key中进行设置
(这里采用openAI的协议)
,可以使用自定义的模型。
设置好
DeepSeek-r1和DeepSeek-v3模型之后,接下来就可以在Cursor中选择该模型进行编程。
我们看一个实际的例子
:
一个红色的小球在三角区域内运动,碰到边界就反弹,编写一个
HTML网页。
Cursor会新建一个工程,动态展示编程结构。而DeepSeek在长链思考之后,编写出HTML代码,但代码运行可能不符合要求,需要进一步调整,调整的过程我们也只需发出语言
(文字对话)
指令。
调整过程如下:
基于之前的思考,帮我完善HTML。(动作:DeepSeek思考并完善HTML代码。效果:HTML样式有了调整,但是小球还是会飞出三角区域,需要进一步调整。)
小球弹了之后,弹出去了啊,帮我检查代码……
考虑小球的重力,以及三角区域的支撑力,小球的弹力进行完善……
每次运行,小球可以从随机的任意方向抛出……
小球的弹力大一些……
最后到地面都垂直弹跳了,不是应该还会滚动么,就是有水平的速度……
下面增加一个刷新按钮,可以重新执行这个HTML……
中文显示是乱码,另外考虑到手机显示,页面需要做自适应……
经过多次调校,
DeepSeek终于生成了符合我们要求的HTML代码,并在Cursor工程中进行效果演示。
通过上面的演示,我们发现,即使不懂代码,也可以通过
DeepSeek来完成机器编程,获得期望的效果。
4.这一次,AI真的“智能”了
从
AlphaGo与围棋世界冠军李世石大战开始,人工智能逐渐介入我们的生活。机器第一次能进行自主思考,完成简单
(
其
实战胜世界冠军这个任务并不简单)
任务。
在发展中的人工智能也一度被我们吐槽为
“人工智障”,但从OpenAI开始,人工智能逐渐会处理一些复杂任务了,而DeepSeek展现出了超越普通人的长思维链路,我们不得不感叹:AI真的“智能”了。
可见,在学习过程中,对于复杂任务的处理有一个逐渐成熟的过程,一切都可以从最简单的开始。
当你具备了一些常见的思考、自我更新、自我迭代的能力,就可以完成一些更有价值的作品。
比如,如果你是一名投资分析师,会用哪种
AI助手来辅助完成投研报告呢?如果用通用大模型
(相当于文科生)
写报告,可能也会完成任务,但显然缺乏严谨的逻辑推理过程
。
因此可能带来市场的盲目跟投或者疯狂踩踏,而
DeepSeek的R1模型的严谨推理过程,可以胜任你的助手了。
1.李飞飞50美金复