专栏名称: 数字化企业
e-works(数字化企业网)是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构,由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。
目录
相关文章推荐
杨天南财务健康谈  ·  音频节目:戴维斯家族富过三代的传奇(原名儿童 ... ·  昨天  
常观  ·  明天起,早饭可以调整下! ·  昨天  
常观  ·  明天起,早饭可以调整下! ·  昨天  
健康中国  ·  身边的暖医瞬间 | ... ·  3 天前  
51好读  ›  专栏  ›  数字化企业

Deepseek是真正的创新还是穿着AI皇帝的新衣?

数字化企业  · 公众号  ·  · 2025-01-31 15:04

正文





Deepseek已红透全世界。众所周知,“ 人红是非多 ”,这两天,Deepseek很不太平,已经开始迎接爆红之后的巨大挑战。服务器一两天没法正常工作,近日开始恢复。围绕DeepSeek的风波主要是两个问题:一个是美国所谓的自身国家安全问题;一个是抄袭还是创新的问题。下面,我们来试图捋一捋第二个问题。
- 文章信息 -


本文作者:二湘老师,作家,毕业于北京大学和德州大学奥斯汀分校,曾就职于IBM。喜欢码字,著有长篇小说《暗涌》《狂流》,小说集《重返2046》,最新小说集《心的形状》。数字化企业经授权发布,e-works进行了一定的内容补充。

有很多无脑的争论

毫无意义


昨天看到很多群里转发这条信息:“据彭博新闻周二报道,微软和 OpenAI 正在调查 ChatGPT 技术的数据输出是否被与 DeepSeek 相关的一个团体以未经授权的方式获取。

报道称,微软的安全研究人员观察到,在去年秋季, 他们认为与 DeepSeek 有关的个人使用 OpenAI 的应用程序编程接口(API)提取了大量数据。”


许多人根据这条信息做出结论,认为Deepseek是小偷,Deepseek是Deepshit。许多人都在转发这篇题为《deepseek穿上Ai皇帝的新衣,精英集体蜕化为乌合之众》的文章, 认为DeepSeek不过是基于OpenAI的GPT企业版API做了一些二次封装和微调,核心技术并未自研。


Deepseek确有创新

得到诸多业内专业人士肯定


笔者认为第一部分网上讨论的很多结论是不准确的,把DS的蒸馏技术当作API二次封装显然是对AI的核心技术不够了解。

那么什么是蒸馏技术呢,业内人士一般称为model distillation(模型蒸馏), 也有人称为knowledge distillation(知识蒸馏),简单来说,就是将复杂大模型(教师模型)的知识“压缩”到更轻量的小模型(学生模型)中,通过模仿教师模型的输出(如概率分布),小模型保持了高性能并且减少了计算量。通俗一点讲,就是学生模仿老师的输出或中间特征,从而将老师的知识和方法(如推理能力、模式识别等)迁移到学生手里。

而API二次封装指的是一个App把终端用户的问题直接甩给另外一个App,得到回复后再把答案返回这边的App。

注意这两者最大的不同是在蒸馏技术里,学生模型学会了老师的推理方法,有了自己的模型 ,用户的问题是在学生模型里生成的,来自学生自己的App,而在后者,答案是来自另外一个App。

而DeepSeek的核心优化手段是知识蒸馏,目的是将大模型的智能推理方法高效迁移到自己的轻量化模型中,而非直接压缩数据,更不是简单的二次包装获取答案。

文章中提到DeepSeek调用OpenAI的核心证据是当问及”what model are you“时,Deepseek回答是chatGPT,或者”GTP-3”,但这其实不过是DS在Post Training Reinforcement learning (RL)的阶段调用了一些OpenAI的API 获取一些数据。而这种调用是允许的,并且是付费的。当然,这里的确有一个潜在的问题,那就是OpenAI的API调用,每一个账号都有一个Limit,不知道DS是不是用code或者多人多账号的方式绕过了这个Limit,这大概就是报道里面微软所说的未经授权的方式获取数据。

(小编补充:不排除有些人非黑即坏,故意投喂规则和数据,让Deepseek这样回答来截图抹黑的,就我有限的测试来看,它从未这样回答过)


昨天和谷歌一个负责Gemini构建的技术主管聊了一阵,他说,其实大模型蒸馏是很常见的,业界一般就是调用比较强的大模型,获取几千至上万不等的prompts & responses用来做RL。 DS的Thinking Model(推理模型)有很大的创新,业界公认的推理模型第一梯队包括openAI,谷歌和DS,Anthropic还没有自己的thinking model, Meta在这方面是落后的。

AI业内人士早在半年前就关注DS了,Deepseek的技术是很靠谱的, 梁文峰是业界公认的懂技术细节的领导者,放眼整个AI圈都找不到一把手CEO这么懂技术细节。 DS的确是做的非常好,有许多创新,并且是改变了游戏规则,低成本也可以做AI开发,这必然会鼓励更多人加入AI的开发大军。

有人说,DS不过就是蒸馏技术里的佼佼者而已,答案也并非如此。DS的确是有不少自己的创新的, 用我的一位朋友,AI技术大拿张峥的话说,就是站在巨人肩膀上,长出了自己的脑袋。

(小编补充:网上的chaos很多很杂很吵,我们需要声音和怀疑,但更多的是需要有价值,有科学依据的声音。网上90%以上的评论根本不懂人工智能,如此深层次的创新研究就更不用说,全凭碎片信息只言片语以及传统的思维惯性去评说。那么就多听听在AI一线的研究人员和专家是怎么说的)

必须明确说明的是——截至本文发稿时,Deepseek风波没有任何官方的声明, Deepseek、OpenAI以及微软等等直接关联方没有任何表态。都是一些相关员工的说法和个人见解。


来自GoogleDeepmind的一线AI研究科学家Ankesh Anand在1月30日发表了几条对Deepseek的一些看法,他正在为Gemini的推理和新能力进行强化学习(RL)开发。 他认为: 近来关于DeepSeek的密集讨论,对他们取得的成就既低估也高估了——


🔵 关于蒸馏声明: DeepSeekCoder-V2 [1] 于2024年6月发布,当时他们已经成功地实现了基于可验证奖励的强化学习(RL)。在我知道的范围内,除了Gemini和OpenAI,他们是唯一一个成功应用强化学习的团队。 从那时起的6个月,我认为这个团队仅仅从o1中进行蒸馏的 可能性很小 ,因为OpenAI的博客文章中已经包含了大量关于o1的信息。他们可能使用o1的CoTs作为例子来帮助生成他们的人类CoT数据, 但同样,Deepseek团队有足够有才华,完全能够独立完成这项工作。



🔵 关于训练成本: 550万美元的花费对于“最后一轮”训练来说完全合理,而且是一个巨大的成就。 不过,只有在与Llama3的训练成本相比时才显得惊人,因为Llama3是几代之前的模型。显然,总的研发成本要高得多。


🔵 总体来说: 向DeepSeek团队祝贺发布R1! 在2024年,多个实验室几乎同时在前沿模型上成功实现了RL的应用,现在我们进入了一个新的有趣的范式。 我希望他们的开放性能够激励其他实验室也能公开更多的成果。

不止是一线的AI研究科学家。 微软CEO Satya Nadella在微软周三的季度财报电话会议上,被提及Deepseek时,作出了以下回答:

“I think DeepSeek has had some real innovation。” He emphasized that the efforts of DeepSeek will become commoditized and broadly used throughout AI platforms. He believes that DeepSeek will inevitably help the American AI industry rather than hurt it.


“我认为DeepSeek确实做出了一些真正的创新。” 他强调,DeepSeek的努力将会商品化,并广泛应用于各大AI平台。他相信,DeepSeek最终会帮助美国的AI产业,而不是伤害它。——微软CEO 萨蒂亚·纳德拉


近日,在投资者电话会议上, 来自 Melius 的分析师本·雷茨斯询问苹果CEO蒂姆·库克,如何看待中国AI公司DeepSeek降低了高级AI模型的开发与运行成本。 库克表示:


DeepSeek在降低V3模型训练和运行成本方面的创新值得肯定,能提高效率的创新是好事。他强调苹果软硬件紧密结合的优势,苹果在设备端和私有云都有布局。在资本支出上,苹果一直审慎,采用混合模式。目前苹果构建自身AI能力的同时与OpenAI的ChatGPT合作,随着AI开发和运营成本降低,苹果虽不能放缓AI研发,但当下压力有所减轻。————苹果CEO 蒂姆库克



包括OpenAI的很多员工,实际上都表达了对deepseek成果的肯定和支持。 而美国另一与OpenAI并驾齐驱的AI巨头Anthropic CEO近日更是发“万字檄文”从自身的角度阐述了Deepseek的利害关系 ——他强调美国应加强芯片管制,不应将技术优势拱手让给中国。从另一个侧面肯定了Deepseek的的成果:


“DeepSeek-V3 实际上是一项真正的创新,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(尽管我们发现 Claude 3.5 Sonnet 在编程等关键任务上依旧明显更胜一筹)。DeepSeek 团队通过一些十分令人印象深刻的创新实现了这一点,同时这些创新主要集中在工程效率上。特别是在‘键值缓存(Key-Value cache)’的管理上以及推动‘混合专家(MOE,mixture of experts)’方法的使用上,DeepSeek 团队取得了创新性的改进。”




那么DS到底有哪些创新呢?


0 1
首先是模型架构上有创新



DS是以强化学习(RL)为核心驱动推理能力 ,传统大模型主要依赖监督微调(SFT),而 DS首次利用RL作为推理能力的核心训练方式。 DeepSeek-R1-Zero 甚至完全采用 RL 训练,不依赖 SFT,当然也出现可读性差、语言混乱等问题。 但这是首个公开研究证明 LLM 的推理能力可以纯粹通过RL 激励,而不需要 SFT。这个纯粹依赖RL作为训练方式有些像Deepmind的AlphaGo,通过不断地学习,不断地纠错,从一无所知直接练成一个绝世高手。这一突破为未来该领域的研究奠定了基础。

DeepSeek-R1 采用 “SFT + RL” 的混合训练策略,既保持了语言表达的自然流畅,又强化了推理能力。效果非常好,Performance比肩GPT-o1的模型了, 注意这些Benchmark都是要通过第三方验证,并不是DS自己说了算的:


0 2
其次是DS在训练与数据策略上有创新



DS提出了新的训练管道: 该管道包含两个 RL stage,用于发现改进的推理模式并对⻬人类的偏好,同时还包含两个 SFT stage,作为推理模型与非推理能力的种子。

DS在训练的时候强调质量优先, 用的是高质量、垂直领域的数据(如数学题解、代码仓库),而不是单纯追求数据规模。 还有就是高性价比的训练:通过架构优化和数据效率提升,仅用1/8的训练算力即达到GPT-3.5的性能水平。

0 3
第三就是DS提供了一些新的强化学习(RL)的算法



DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法:

1. 组相对策略优化(GRPO): 为节省 RL 的训练成本,DS采用分组的方式,这个有点像在医院里挂专门的门诊,而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model),DS通过分组评分来估计基准。

2.奖励机制(rewarding modeling)。 奖励是训练信号的来源,决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。

3.  在训练 DeepSeek-R1-Zero 时,DS设计了一个简单的模板,首先生成推理过程, 然后再生成最终答案。 DS有意将约束限制在结构格式上,避免引入任何偏⻅,比如要求模型进行反思性推理,确保准确观察模型在强化学习过程中的自然发展。

这篇paper还提到了模型自我进化过程中一个引人注目的地方,就是随着测试时间和计算的增加,模型会自然涌现出复杂行为和大量强大且有趣的推理行为。 例如,模型会反思,并重新评估之前的步骤,还会探索解决问题的替代方法。还会出现顿悟时刻,这些行为并非明确编程而成,而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的,因为和人类的思考过程如此相似。

另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程,并且开源提供了六个蒸馏模型给公众用, 任何人都可以去DS的官网下载这些小模型, 装到自己的PC上用,这个做法也是非常大气的。

(小编补充:如果大家有看过36氪旗下「暗涌Waves」2024年7月份对DeepSeek梁文峰的访谈,事实上很多问题可以得到解答。也能明显感受到他们身上与众不同的创新精神,这里摘录一些金句)

① 我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。






请到「今天看啥」查看全文