专栏名称: 笔记侠

-1~6岁CEO都在看的第一手笔记干货

‍DeepSeek 爆火背后，必须看清的3大趋势

笔记侠 · 公众号 · 科技自媒体 · 2025-02-20 21:30

主要观点总结

本文介绍了关于DeepSeek模型的影响、创新策略、使用方式和未来趋势等内容。DeepSeek模型在科技界引起广泛关注，其影响力不仅体现在对手的反应、资本市场的影响，还体现在各行业对其的部署和融合。文章深入解析了DeepSeek模型的技术特点，如MOE架构策略、混合精度框架等，并探讨了其多种使用方式，如直接访问官网、使用Cherry Studio等工具进行本地部署等。此外，文章还分析了DeepSeek模型掀起的变革，包括小模型成为主流、使用合成数据进行训练等趋势。

关键观点总结

关键观点1: DeepSeek模型的影响力

DeepSeek模型引起广泛关注，对手感到惶恐，资本市场出现大幅波动，国外机构纷纷部署或集成DeepSeek的相关模型。

关键观点2: DeepSeek的技术特点

DeepSeek采用创新策略，如引入MLA、使用DeepSeek-MoE架构策略、混合精度框架等，计算速度快，成本低，推理能力强。

关键观点3: DeepSeek的使用方式

DeepSeek有多种使用方式，可以直接访问官网，使用Cherry Studio+DeepSeek API进行本地部署，或者使用Cherry Studio+第三方云厂商DeepSeek API。此外，还可以结合知识库和Cursor等工具进行复杂应用。

关键观点4: DeepSeek掀起的变革

DeepSeek的推出掀起了新的变革，未来小模型将成为主流，使用合成数据进行训练也将成为主流。此外，AI模型将自我迭代，通过自我出题、自我检查和合成数据等方式不断提升能力。

正文

内容来源：量子教育，企业人才培养优质内容及创新解决方案服务商。

分享嘉宾： 陈旸，阿里云MVP，清华大学计算机博士。

高级笔记达人 | 李云责编 | 柒排版 | 拾零
第 8840 篇深度好文：7662 字 | 20 分钟 阅读

宏观趋势

笔记君说：

春节前夕，DeepSeek-R1模型公布开源，下载量迅速登上了免费榜榜首。随后，引起了美国资本市场的大波动，算力巨头英伟达出现了股价暴跌17%的罕见跌幅……

开源后的DeepSeek到底对资本、科技产生了何种影响？是什么让其具有这么大的能量？我们如何拥抱DeepSeek带来的新AI时代？继DeepSeek之后，AI将有什么新的趋势？

这篇文章，将由清华大学计算机博士、阿里云MVP（人工智能领域最有价值专家）陈旸为我们一一解读上述问题。

一、DeepSeek的影响力

1.对手惶恐，资本青睐

2025年1月20日，DeepSeek-R1模型正式公布；1月26日在中国区、美国区苹果App Store中的免费榜上同时冲到了第一名。

随后，美国资本市场出现大幅波动，标准普尔 500指数在10天内跌幅接近10%。英伟达股票在1月27日当天暴跌了17%，美股主要科技公司 (英伟达、微软、Meta、亚马逊等) 市值共计蒸发上万亿美元。

在 DeepSeek-R1出现前，算力是大模型训练的关键因素，美国限制中国使用英伟达的显卡，因此大家普遍会认为美国在AI大模型的领先优势是“断层式”的，这也是美国对华科技限制采取“小院高墙”战略的底层逻辑。

DeepSeek用少量的显卡训练出了与其媲美的模型，相当于打破了美国对华在人工智能领域的战略限制。

就连 OpenAI的CEO山姆奥特曼也重新思考了OpenAI的开源战略，迅速推出了o3-mini模型，在使用中开放了思考推理过程。

在这之前， OpenAI并不是完全开源的，我们只能使用o1模型，现在我们也可以使用其o3模型进行更深入的思考。

通过 OpenAI o3 mini与DeepSeek R1的使用对比，可以发现DeepSeek-R1的思考时间更长，思考逻辑更完整，推理结果更好。

同时， DeepSeek会将推理过程完整地展现出来，而OpenAI以前不会展示思考的过程，而思考的过程其实非常有价值的。

今年 1月，美国宣布“星际之门”计划，软银向OpenAI投资400亿美元，用于OpenAI对星际之门的承诺，投后估值达3000亿美元；而具有对标OpenAI能力的DeepSeek，同样受到国内近百家资本的青睐，对其表达了投资意向，可以预见DeepSeek的估值将会上到一个新的高度。

2.DeepSeek开源，行业争相部署

在 DeepSeek宣布开源R1之后，各个行业都开始集成或部署DeepSeek的相关模型。

国内的华为云、百度智能云、阿里云、腾讯云、京东云、火山引擎以及三大运营商等云平台都相继部署了 DeepSeek的R1/V3等模型。

国外的亚马逊、微软、英伟达、 AMD等平台也快速地将DeepSeek R1/V3模型部署或集成到相关的产品和服务上。

在产业端，吉利、岚图、东风、广汽、智己、长城、宝骏、零跑等车企也宣布与 DeepSeek进行融合，未来智驾上也可以体验到与DeepSeek的交互。

金融领域，国泰君安、国金证券、兴业证券、广发证券等证券机构进行了本地化部署和调试，应用于行业研究、市场研判、风险管理、信息检索、文档处理等多种场景。

当然，部署与开发完成还需一定的测试过程，但也体现出各个行业不甘落后的状态，也说明与先进的大模型融合使用将是大势所趋。

二、DeepSeek撕破了算力面纱

1.DeepSeek的完全版与蒸馏版

DeepSeek完全版的尺寸是671B，由于采用创新的MOE架构，在推理过程中激活少部分参数，因此推理速度更快，所需训练资源更小。

DeepSeek蒸馏版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多个尺寸。它选了两个开源模型进行训练，国内是Qwen2.5，国外则选用了Llama，蒸馏模型更小更快，但能力相对弱一些。

对于性能要求不太高、 GPU资源有限的企业，蒸馏版是一个更优选择。因为完全版需要的显存是496GB，而R1 ： 1.5B只需要2G显存、R1 ： 7B也只需要8G显存，最高的R1 ： 70B蒸馏版也只需要128G显存，大幅降低了私有化部署的资源要求。

2.蒸馏技术路线，让DeepSeek R1性能大幅提升

在 R1模型之前，DeepSeek推出V3通用模型，在推理速度上相较历史模型有了大幅提升。一度在大模型主流榜单中，位于开源模型榜首，与世界最先进的闭源模型也不分伯仲。

而 V3模型最大的特点是训练成本极低，需要的显卡数量和训练时间较于OpenAI只是一个零头。

2024年12月，V3模型正式推出，但当时并没有太大波澜。

而以 V3模型为基础，通过新的奖励机制GRPO (group relative policy optimization) ,并使用规则类验证机制自动对输出进行打分，在一个多月时间内训练出了DeepSeek-R1模型，性能堪比GPT-o1模型，使R1迅速火出了圈。而R1模型与V3模型相比，其性能也有了大幅提升。

R1模型遵循MIT License （一种非常宽松的开源许可协议，允许用户自由地使用、修改、分发和商业化软件或模型。） ,允许用户通过蒸馏技术借助R1训练其他模型。

相比之下， Meta Llama的License相对严格，虽然LLaMA3是开源的，但许可协议限制了商业用途和对模型的修改，比如新的模型如果使用LLaMA,需要名称上带有LLaMA标识。

DeepSeek-R1上线API,对用户开放思维链输出，因此一经发布，多家企业就宣布融合DeepSeek-R1的各个版本，因为是完全开源的模型，在版权上就减少了不少风险。

在开源 DeepSeek -R1-Zero和 DeepSeek -R1两个660 B 模型的同时，通过 DeepSeek -R1的输出，蒸馏了6个小模型，其中32B和70B模型在多项能力上实现了对标0penAlo1-mini的效果.

3.DeepSeek的创新策略及产生的效果

① 创新策略

第一，引入 MLA (Multi-Head Latent Attention) 。

在 “All you need is attention”的背景下，传统的多头注意力 (MHA，Multi-Head Attention) 的键值 (KV) 缓存机制事实上对计算效率形成了较大阻碍。缩小KV缓存 (KV Cache) 大小，并提高性能，在之前的模型架构中并未得到很好的解决。

DeepSeek引入了MLA，一种通过低秩键值联合压缩的注意力机制，在显著减小KV缓存的同时提高计算效率。低秩近似是快速矩阵计算的常用方法，在MLA之前很少用于大模型计算。

从大模型架构的演进情况来看， Prefill和KV Cache容量瓶颈的问题正一步步被新的模型架构攻克，巨大的KV Cache正逐渐成为历史 (实际上在2024年6月发布的DeepSeek-V2就已经很好的降低了KV Cache的大小) 。

第二，创新使用了 DeepSeek-MoE架构策略。

V3使用了61个MoE (Mix of Expert混合专家) block，虽然总参数量很大，但每次训练或推理时只激活了很少链路，训练成本大大降低，推理速度显著提高。

第三， DeepSeek采用混合精度框架。

在不同的区块里使用不同的精度来存储数据。我们知道精度越高，内存占用越多，运算复杂度越大。

DeepSeek在一些不需要很高精度的模块，使用很低的精度FP8储存数据，极大的降低了训练计算量。

② 创新策略带来的效果

第一，计算速度快，成本低。

架构设计方面： DeepSeek MoE架构在推理时仅激活部分专家，避免了激活所有参数带来的计算资源浪费；MLA架构通过降秩KV矩阵，减少了显存消耗。

训练策略方面：在训练过程中采用多 token预测 (MTP) 目标，即在每个位置上预测多个未来token，增加了训练信号的密度，提高了数据效率。

在训练中，对于占据大量计算量的通用矩阵乘法 (GEMM) 操作，采用FP8精度执行；同时，通过细粒度量化策略和高精度累积过程，解决了低精度训练中出现的量化误差问题。

第二，推理能力强大。

强化学习驱动 ： DeepSeek-R1通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言推理等任务上表现出色，性能与OpenAl的o1正式版相当。

长链推理 (CoT) 技术： DeepSeek-R1采用长链推理技术，其思维链长度可达数万字，能够逐步分解复杂问题，通过多步骤的逻辑推理来解决问题。

三、如何高效使用DeepSeek？

1.DeepSeek的多种使用方式及其表现

第一种，直接访问 DeepSeek官网。虽然免费，但由于访问量过大，表现极不稳定。

第二种，在 GitHub上下载cherry Studio （或者一些其它工具），使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不稳定的情况。

第三种，使用 Cherry Studio+第三方云厂商DeepSeek API做本地部署。使用第三方云厂商的DeepSeekAPI稳定很多，相比官方API价格也便宜。

Cherry部署之后，除了DeepSeek，还可以使用OpenAI、月之暗面、智谱清言等API。

假设我们来解一道高考数学题：设集合 A中的元素皆为无重复数字的三位正整数，且元素中任意两者之积皆为偶数，求集合中元素个数的最大值是多少？

这是一个非常复杂、难度较大的问题，如果采用通义千问等通用大模型，大概率得不出正确答案，而 DeepSeek通过分步骤的长链深度思考，一步步给出了正确答案。

2.简单应用：DeepSeek+知识库

以构建投资研究框架为例，我们来展示用 DeepSeek+知识库的使用。

第一步，配置 embedding模型。嵌入模型，把知识库进行向量化，并进行快速检索；选择嵌入模型（可以使用硅基流动），在Cherry Studio设置中，设置对应的API Key。

第二步，整理知识库。在 Cherry studio的知识库中，配置投研报告知识库，上传相关投研报告（处理知识库主要用到文字，所以知识库支持PDF、PPT、Excel、word等多种文本文件）。完成后，你就在本地有了知识库。

第三步，在智能对话助手中，选择对应的知识库。

最后一步，针对知识库进行提问。可以看到， DeepSeek会进行长链思考并展现思考过程。

需要注意，虽然云厂商不会主动收集你的数据，但并不能 100%保证数据安全，对于企业的敏感数据（如财务、营销数据），建议进行本地私有化部署。

3.复杂应用：DeepSeek+Cursor

知识库并不能完全展现 DeepSeek的深度思考能力，借助于其它工具（如Cursor）可以完成更复杂的任务，如物理世界的小球碰撞实验。

首先，我们在 Cursor的【File->Preferences->Cursor Settings】中设置DeepSeek-r1和DeepSeek-v3模型。

然后，在 openAI API Key中进行设置（这里采用openAI的协议），可以使用自定义的模型。

设置好 DeepSeek-r1和DeepSeek-v3模型之后，接下来就可以在Cursor中选择该模型进行编程。

我们看一个实际的例子：一个红色的小球在三角区域内运动，碰到边界就反弹，编写一个 HTML网页。

Cursor会新建一个工程，动态展示编程结构。而DeepSeek在长链思考之后，编写出HTML代码，但代码运行可能不符合要求，需要进一步调整，调整的过程我们也只需发出语言（文字对话）指令。

调整过程如下：

基于之前的思考，帮我完善HTML。（动作：DeepSeek思考并完善HTML代码。效果：HTML样式有了调整，但是小球还是会飞出三角区域，需要进一步调整。）

小球弹了之后，弹出去了啊，帮我检查代码……

考虑小球的重力，以及三角区域的支撑力，小球的弹力进行完善……

每次运行，小球可以从随机的任意方向抛出……

小球的弹力大一些……

最后到地面都垂直弹跳了，不是应该还会滚动么，就是有水平的速度……

下面增加一个刷新按钮，可以重新执行这个HTML……

中文显示是乱码，另外考虑到手机显示，页面需要做自适应……

经过多次调校， DeepSeek终于生成了符合我们要求的HTML代码，并在Cursor工程中进行效果演示。

通过上面的演示，我们发现，即使不懂代码，也可以通过 DeepSeek来完成机器编程，获得期望的效果。

4.这一次，AI真的“智能”了

从 AlphaGo与围棋世界冠军李世石大战开始，人工智能逐渐介入我们的生活。机器第一次能进行自主思考，完成简单（其实战胜世界冠军这个任务并不简单）任务。

在发展中的人工智能也一度被我们吐槽为 “人工智障”，但从OpenAI开始，人工智能逐渐会处理一些复杂任务了，而DeepSeek展现出了超越普通人的长思维链路，我们不得不感叹：AI真的“智能”了。

可见，在学习过程中，对于复杂任务的处理有一个逐渐成熟的过程，一切都可以从最简单的开始。当你具备了一些常见的思考、自我更新、自我迭代的能力，就可以完成一些更有价值的作品。

比如，如果你是一名投资分析师，会用哪种 AI助手来辅助完成投研报告呢？如果用通用大模型（相当于文科生）写报告，可能也会完成任务，但显然缺乏严谨的逻辑推理过程。

因此可能带来市场的盲目跟投或者疯狂踩踏，而 DeepSeek的R1模型的严谨推理过程，可以胜任你的助手了。

四、DeepSeek掀桌子

打通了另一条路

1.李飞飞50美金复