专栏名称: 笔记侠
-1~6岁CEO都在看的第一手笔记干货
目录
相关文章推荐
李楠或kkk  ·  AGI ... ·  昨天  
小众消息  ·  拼多多的西进 ·  2 天前  
今视频长天新闻  ·  全国知名媒体人齐聚!太重要了 ·  3 天前  
51好读  ›  专栏  ›  笔记侠

‍DeepSeek 爆火背后,必须看清的3大趋势

笔记侠  · 公众号  · 科技自媒体  · 2025-02-20 21:30

主要观点总结

本文介绍了关于DeepSeek模型的影响、创新策略、使用方式和未来趋势等内容。DeepSeek模型在科技界引起广泛关注,其影响力不仅体现在对手的反应、资本市场的影响,还体现在各行业对其的部署和融合。文章深入解析了DeepSeek模型的技术特点,如MOE架构策略、混合精度框架等,并探讨了其多种使用方式,如直接访问官网、使用Cherry Studio等工具进行本地部署等。此外,文章还分析了DeepSeek模型掀起的变革,包括小模型成为主流、使用合成数据进行训练等趋势。

关键观点总结

关键观点1: DeepSeek模型的影响力

DeepSeek模型引起广泛关注,对手感到惶恐,资本市场出现大幅波动,国外机构纷纷部署或集成DeepSeek的相关模型。

关键观点2: DeepSeek的技术特点

DeepSeek采用创新策略,如引入MLA、使用DeepSeek-MoE架构策略、混合精度框架等,计算速度快,成本低,推理能力强。

关键观点3: DeepSeek的使用方式

DeepSeek有多种使用方式,可以直接访问官网,使用Cherry Studio+DeepSeek API进行本地部署,或者使用Cherry Studio+第三方云厂商DeepSeek API。此外,还可以结合知识库和Cursor等工具进行复杂应用。

关键观点4: DeepSeek掀起的变革

DeepSeek的推出掀起了新的变革,未来小模型将成为主流,使用合成数据进行训练也将成为主流。此外,AI模型将自我迭代,通过自我出题、自我检查和合成数据等方式不断提升能力。


正文

图片

内容来源: 量子教育,企业人才培养优质内容及创新解决方案服务商。
分享嘉宾: 陈旸,阿里云MVP,清华大学计算机博士。

高级笔记达人 | 李云 责编 | 柒 排版 | 拾零
第 8840 篇深度好文:7662 字 | 20 分钟 阅读

宏观趋势


笔记君说:


春节前夕,DeepSeek-R1模型公布开源,下载量迅速登上了免费榜榜首。随后,引起了美国资本市场的大波动,算力巨头英伟达出现了股价暴跌17%的罕见跌幅……


开源后的DeepSeek到底对资本、科技产生了何种影响?是什么让其具有这么大的能量?我们如何拥抱DeepSeek带来的新AI时代?继DeepSeek之后,AI将有什么新的趋势?


这篇文章,将由清华大学计算机博士、阿里云MVP(人工智能领域最有价值专家)陈旸为我们一一解读上述问题。


一、DeepSeek的影响力

1.对手惶恐,资本青睐

2025年1月20日,DeepSeek-R1模型正式公布;1月26日在中国区、美国区苹果App Store中的免费榜上同时冲到了第一名。

随后,美国资本市场出现大幅波动,标准普尔 500指数在10天内跌幅接近10%。英伟达股票在1月27日当天暴跌了17%,美股主要科技公司 (英伟达、微软、Meta、亚马逊等) 市值共计蒸发上万亿美元。

DeepSeek-R1出现前,算力是大模型训练的关键因素,美国限制中国使用英伟达的显卡,因此大家普遍会认为美国在AI大模型的领先优势是“断层式”的,这也是美国对华科技限制采取“小院高墙”战略的底层逻辑。

DeepSeek用少量的显卡训练出了与其媲美的模型,相当于打破了美国对华在人工智能领域的战略限制。

就连 OpenAI的CEO山姆奥特曼也重新思考了OpenAI的开源战略,迅速推出了o3-mini模型,在使用中开放了思考推理过程。

在这之前, OpenAI并不是完全开源的,我们只能使用o1模型,现在我们也可以使用其o3模型进行更深入的思考。


通过 OpenAI o3 mini与DeepSeek R1的使用对比,可以发现DeepSeek-R1的思考时间更长,思考逻辑更完整,推理结果更好。


同时, DeepSeek会将推理过程完整地展现出来,而OpenAI以前不会展示思考的过程,而思考的过程其实非常有价值的。

今年 1月,美国宣布“星际之门”计划,软银向OpenAI投资400亿美元,用于OpenAI对星际之门的承诺,投后估值达3000亿美元;而具有对标OpenAI能力的DeepSeek,同样受到国内近百家资本的青睐,对其表达了投资意向,可以预见DeepSeek的估值将会上到一个新的高度。

2.DeepSeek开源,行业争相部署

DeepSeek宣布开源R1之后,各个行业都开始集成或部署DeepSeek的相关模型。

国内的华为云、百度智能云、阿里云、腾讯云、京东云、火山引擎以及三大运营商等云平台都相继部署了 DeepSeek的R1/V3等模型。

国外的亚马逊、微软、英伟达、 AMD等平台也快速地将DeepSeek R1/V3模型部署或集成到相关的产品和服务上。



在产业端,吉利、岚图、东风、广汽、智己、长城、宝骏、零跑等车企也宣布与 DeepSeek进行融合,未来智驾上也可以体验到与DeepSeek的交互。

金融领域,国泰君安、国金证券、兴业证券、广发证券等证券机构进行了本地化部署和调试,应用于行业研究、市场研判、风险管理、信息检索、文档处理等多种场景。

当然,部署与开发完成还需一定的测试过程,但也体现出各个行业不甘落后的状态,也说明 与先进的大模型融合使用将是大势所趋。


二、DeepSeek撕破了算力面纱

1.DeepSeek的完全版与蒸馏版

DeepSeek完全版的尺寸是671B,由于采用创新的MOE架构,在推理过程中激活少部分参数,因此推理速度更快,所需训练资源更小。

DeepSeek蒸馏版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多个尺寸。它选了两个开源模型进行训练,国内是Qwen2.5,国外则选用了Llama,蒸馏模型更小更快,但能力相对弱一些。

对于性能要求不太高、 GPU资源有限的企业,蒸馏版是一个更优选择。因为完全版需要的显存是496GB,而R1 1.5B只需要2G显存、R1 7B也只需要8G显存,最高的R1 70B蒸馏版也只需要128G显存,大幅降低了私有化部署的资源要求。

2.蒸馏技术路线,让DeepSeek R1性能大幅提升

R1模型之前,DeepSeek推出V3通用模型,在推理速度上相较历史模型有了大幅提升。一度在大模型主流榜单中,位于开源模型榜首,与世界最先进的闭源模型也不分伯仲。

V3模型最大的特点是训练成本极低,需要的显卡数量和训练时间较于OpenAI只是一个零头。

2024年12月,V3模型正式推出,但当时并没有太大波澜。

而以 V3模型为基础,通过新的奖励机制GRPO (group relative policy optimization) ,并使用规则类验证机制自动对输出进行打分,在一个多月时间内训练出了DeepSeek-R1模型,性能堪比GPT-o1模型,使R1迅速火出了圈。而R1模型与V3模型相比,其性能也有了大幅提升。

R1模型遵循MIT License 种非常宽松的开源许可协议,允许用户自由地使用、修改、分发和商业化软件或模型。) ,允许用户通过蒸馏技术借助R1训练其他模型。



相比之下, Meta Llama的License相对严格,虽然LLaMA3是开源的,但许可协议限制了商业用途和对模型的修改,比如新的模型如果使用LLaMA,需要名称上带有LLaMA标识。

DeepSeek-R1上线API,对用户开放思维链输出,因此一经发布,多家企业就宣布融合DeepSeek-R1的各个版本,因为是完全开源的模型,在版权上就减少了不少风险。

在开源 DeepSeek -R1-Zero和 DeepSeek -R1两个660 B 模型的同时,通过 DeepSeek -R1的输出,蒸馏了6个小模型,其中32B和70B模型在多项能力上实现了对标0penAlo1-mini的效果.

3.DeepSeek的创新策略及产生的效果

① 创新策略

第一,引入 MLA (Multi-Head Latent Attention)

“All you need is attention”的背景下,传统的多头注意力 (MHA,Multi-Head Attention) 的键值 (KV) 缓存机制事实上对计算效率形成了较大阻碍。缩小KV缓存 (KV Cache) 大小,并提高性能,在之前的模型架构中并未得到很好的解决。

DeepSeek引入了MLA,一种通过低秩键值联合压缩的注意力机制,在显著减小KV缓存的同时提高计算效率。低秩近似是快速矩阵计算的常用方法,在MLA之前很少用于大模型计算。

从大模型架构的演进情况来看, Prefill和KV Cache容量瓶颈的问题正一步步被新的模型架构攻克,巨大的KV Cache正逐渐成为历史 (实际上在2024年6月发布的DeepSeek-V2就已经很好的降低了KV Cache的大小)

第二,创新使用了 DeepSeek-MoE架构策略。

V3使用了61个MoE (Mix of Expert混合专家) block,虽然总参数量很大,但每次训练或推理时只激活了很少链路,训练成本大大降低,推理速度显著提高。



第三, DeepSeek采用混合精度框架。

在不同的区块里使用不同的精度来存储数据。我们知道 精度越高,内存占用越多,运算复杂度越大。


DeepSeek在一些不需要很高精度的模块,使用很低的精度FP8储存数据,极大的降低了训练计算量。

② 创新策略带来的效果

第一,计算速度快,成本低。

架构设计方面: DeepSeek MoE架构在推理时仅激活部分专家,避免了激活所有参数带来的计算资源浪费;MLA架构通过降秩KV矩阵,减少了显存消耗。

训练策略方面:在训练过程中采用多 token预测 (MTP) 目标,即在每个位置上预测多个未来token,增加了训练信号的密度,提高了数据效率

在训练中,对于占据大量计算量的通用矩阵乘法 (GEMM) 操作,采用FP8精度执行;同时,通过细粒度量化策略和高精度累积过程,解决了低精度训练中出现的量化误差问题。

第二,推理能力强大。

强化学习驱动 DeepSeek-R1通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言推理等任务上表现出色,性能与OpenAl的o1正式版相当。

长链推理 (CoT) 技术 DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,能够逐步分解复杂问题,通过多步骤的逻辑推理来解决问题。


三、如何高效使用DeepSeek?

1.DeepSeek的多种使用方式及其表现

第一种,直接访问 DeepSeek官网。 虽然免费,但由于访问量过大,表现极不稳定。

第二种,在 GitHub上下载cherry Studio (或者一些其它工具) ,使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不稳定的情况。

第三种,使用 Cherry Studio+第三方云厂商DeepSeek API做本地部署。 使用第三方云厂商的DeepSeekAPI稳定很多,相比官方API价格也便宜。

Cherry部署之后,除了DeepSeek,还可以使用OpenAI、月之暗面、智谱清言等API。

假设我们来解一道高考数学题:设集合 A中的元素皆为无重复数字的三位正整数,且元素中任意两者之积皆为偶数,求集合中元素个数的最大值是多少?

这是一个非常复杂、难度较大的问题,如果采用通义千问等通用大模型,大概率得不出正确答案,而 DeepSeek通过分步骤的长链深度思考,一步步给出了正确答案。

2.简单应用:DeepSeek+知识库

以构建投资研究框架为例,我们来展示用 DeepSeek+知识库的使用。

第一步,配置 embedding模型。嵌入模型,把知识库进行向量化,并进行快速检索;选择嵌入模型 (可以使用硅基流动) ,在Cherry Studio设置中,设置对应的API Key。

第二步,整理知识库。在 Cherry studio的知识库中,配置投研报告知识库,上传相关投研报告 (处理知识库主要用到文字,所以知识库支持PDF、PPT、Excel、word等多种文本文件) 。完成后,你就在本地有了知识库。

第三步,在智能对话助手中,选择对应的知识库。

最后一步,针对知识库进行提问。可以看到, DeepSeek会进行长链思考并展现思考过程。


需要注意,虽然云厂商不会主动收集你的数据,但并不能 100%保证数据安全,对于企业的敏感数据 (如财务、营销数据) ,建议进行本地私有化部署。

3.复杂应用:DeepSeek+Cursor

知识库并不能完全展现 DeepSeek的深度思考能力,借助于其它工具 (如Cursor) 可以完成更复杂的任务,如物理世界的小球碰撞实验。

首先,我们在 Cursor的【File->Preferences->Cursor Settings】中设置DeepSeek-r1和DeepSeek-v3模型。

然后,在 openAI API Key中进行设置 (这里采用openAI的协议) ,可以使用自定义的模型。

设置好 DeepSeek-r1和DeepSeek-v3模型之后,接下来就可以在Cursor中选择该模型进行编程。

我们看一个实际的例子 一个红色的小球在三角区域内运动,碰到边界就反弹,编写一个 HTML网页。

Cursor会新建一个工程,动态展示编程结构。而DeepSeek在长链思考之后,编写出HTML代码,但代码运行可能不符合要求,需要进一步调整,调整的过程我们也只需发出语言 (文字对话) 指令。

调整过程如下:


基于之前的思考,帮我完善HTML。(动作:DeepSeek思考并完善HTML代码。效果:HTML样式有了调整,但是小球还是会飞出三角区域,需要进一步调整。)

小球弹了之后,弹出去了啊,帮我检查代码……

考虑小球的重力,以及三角区域的支撑力,小球的弹力进行完善……

每次运行,小球可以从随机的任意方向抛出……

小球的弹力大一些……

最后到地面都垂直弹跳了,不是应该还会滚动么,就是有水平的速度……

下面增加一个刷新按钮,可以重新执行这个HTML……

中文显示是乱码,另外考虑到手机显示,页面需要做自适应……


经过多次调校, DeepSeek终于生成了符合我们要求的HTML代码,并在Cursor工程中进行效果演示。

通过上面的演示,我们发现,即使不懂代码,也可以通过 DeepSeek来完成机器编程,获得期望的效果。

4.这一次,AI真的“智能”了

AlphaGo与围棋世界冠军李世石大战开始,人工智能逐渐介入我们的生活。机器第一次能进行自主思考,完成简单 实战胜世界冠军这个任务并不简单) 任务。

在发展中的人工智能也一度被我们吐槽为 “人工智障”,但从OpenAI开始,人工智能逐渐会处理一些复杂任务了,而DeepSeek展现出了超越普通人的长思维链路,我们不得不感叹:AI真的“智能”了。



可见,在学习过程中,对于复杂任务的处理有一个逐渐成熟的过程,一切都可以从最简单的开始。 当你具备了一些常见的思考、自我更新、自我迭代的能力,就可以完成一些更有价值的作品。

比如,如果你是一名投资分析师,会用哪种 AI助手来辅助完成投研报告呢?如果用通用大模型 (相当于文科生) 写报告,可能也会完成任务,但显然缺乏严谨的逻辑推理过程

因此可能带来市场的盲目跟投或者疯狂踩踏,而 DeepSeek的R1模型的严谨推理过程,可以胜任你的助手了。


四、DeepSeek掀桌子
打通了另一条路

1.李飞飞50美金复







请到「今天看啥」查看全文