专栏名称: 量子学派

专注于自然科学领域（数理哲）的教育付费平台

DeepSeek不仅是中国的，更是世界的

量子学派 · 公众号 · 科学 · 2025-02-05 13:16

正文

请到「今天看啥」查看全文

重大通知，请务必点击！

因微信推送规则改版

设为“ 置顶 ”才能正常收到推文

① 点击公众号主页

② 点击右上角“···”

③点击“ 置顶服务号 ”

我们本是少数，

更应该永远在一起！

引

2025 新春来临，

首先向大家送上新年祝福。

在这个新的开端，最引人注目的，当属 DeepSeek 所引发的巨大波澜。

DeepSeek 的迅速崛起令人瞩目，它的影响力广泛传播，不仅成 为白宫圆桌会议 上严肃探讨的议题，也在 杭州咖啡馆 里成为人们津津乐道的话题，甚至 成为全球股市做多与做空的攻防标的。

一场围绕着技术与文明归属的全球风暴正以 DeepSeek 为中心 ，在太平洋两岸轰轰烈烈地展开。

面对 DeepSeek 的横空出世，各界反应截然不同。

有人视其为东方智慧的突围，有人警惕其为规则破坏的威胁，而 华人社区 的争论更显撕裂—— 既有民族自豪的欢呼，亦有对"技术捷径"的尖锐质疑。

风暴中心的 DeepSeek ，恰似一面棱镜。折射出的不仅是地缘博弈的暗流，更是人类智慧跨越疆界的璀璨光谱，映照出人性幽深处难以捉摸的复杂。但有一点不要忘记， DeepSeek 的诞生绝不是单一国家的成果，它不仅是中国的骄傲，更是全人类智慧合作的结晶。

Transformer 基础架构未变

DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架构，并未实现从0到1的颠覆性基础理论创新，但其在模型算法和工程优化方面的系统级创新却不容小觑。其算法和工程创新主要包括了 MoE专家模型、低秩注意力机制、强化学习、小模型蒸馏、FP8混合精度 等工程创新。

很多理论早就有了，但DeepSeek是第一个将这些理论进行工程实践，就算不是从0到1，也可以说是从1到100的突破。

混合专家架构（MoE）

混合专家架构（Mixture of Experts，MoE）最早由谷歌提出 ，旨在通过动态激活部分网络参数来提高深度学习模型的计算效率。DeepSeek采用了这一架构，通过将网络参数分成多个“专家”，每次推理时只激活部分专家，降低了计算资源消耗，在不增加计算成本的前提下处理更复杂的任务。

这是一个典型的全球合作成果，科学家们跨越多个学科，从算法到硬件的优化共同推动了这一技术的发展。

多头潜在注意力（MLA）机制

多头注意力机制（MultiHead Attention，MHA） 是 Transformer架构 的重要组成部分，应用于自然语言处理任务。DeepSeek在此基础上发展出了多头潜在注意力机制 （MLA） ，通过低秩联合压缩技术优化了键值 （KV） 矩阵，从而显著减少了内存消耗并提高了推理效率。

MLA的核心思想 是通过“潜在向量”来表达信息，避免了传统注意力机制中的高维数据存储问题。 不管怎样黑，这在工程实践方面是一个突破。

多Token预测（MTP）训练目标

传统的训练目标通常是逐个生成Token，逐步推理。而 多Token预测（MTP）技术 则通过在训练阶段一次性预测多个Token，显著提高了训练速度并加速了模型的收敛过程。

DeepSeek引入这种方法，进一步提升了其在大规模数据集上的训练效率，尤其是在长文本的生成任务中，大大减少了计算资源的消耗。

FP8混合精度训练框架

FP8结合了数值分析、计算机架构优化和机器学习算法的最新进展，混合精度训练技术通过减少浮点数的精度要求 （从传统的FP16或FP32到FP8） ，降低了内存需求并加速了计算过程。

这项技术能够在不显著损失模型精度的情况下，显著提高训练速度。DeepSeek的成功表明，混合精度训练框架可以在大规模深度学习任务中提供更高效的解决方案。

放弃微调拥抱“强化学习”

DeepSeek与OpenAI的o系列看起来的做法相比，在对待监督学习上更加激进。这也是参考了OpenAI的进化步骤，模型的重点从 “语言交互”变成“数理逻辑”，前者是有大量的现成的数据的，但后者很多都是停留在脑子里的抽象思考。

但强化学习也是多年前的产物了，只是DeepSeek做得更极致。

长上下文处理能力“更进一步”

长上下文处理能力是自然语言处理技术的一个重要里程碑。 它结合了深度学习中的长短期记忆（LSTM）网络和Transformer架构的优势， DeepSeek能够处理长达128K的上下文长度 ，这一技术突破使得DeepSeek在处理长篇文章、技术文档等复杂内容时展现出强大的能力。

为了实现这一目标，DeepSeek在模型架构和优化算法上做出了巨大努力

开源的DeepSeek是给全世界的礼物

DeepSeek采取了完全开源的策略 ，通过MIT许可协议公开其模型和技术报告。

这是非常了不起的，我自己早期也做过一些技术项目，说实在的，当你投入了那么高的成本后，就算是让项目死亡，大部分人也不愿意开源的，凭什么呢？不要以为做这个决定容易，特别是一个小公司，因为它开源之后很有可能最终被大公司给取代。 所以说DeepSeek是给全世界的礼物，这一决策将激发无数科研人员和工程师的创新。

蒸馏的争议被过于放大了

OpenAI指控DeepSeek通过“蒸馏”技术，未经授权地利用其模型输出数据来训练自己的模型，涉嫌侵犯知识产权。

还有张图描述 DeepSeek 从 OpenAI 的 “专属领地” 获取数据， 可 OpenAI 在互联网上广泛抓取数据，难道就合规合理、毫无争议？ DeepSeek 选择向全球开源，把成果回馈大众，这才是真正的普惠精神。虽然存在一些争议，但还没有严重到被“千夫所指”的程度。

懂技术的人应该明白， 训练模型蒸馏语料信息很正常，甚至可以说互相蒸馏是一种必然，其实你用最新的O3模型也在蒸馏DeepSeek中文语料。

DeepSeek的技术是远强于“教师模型”的，如果只依靠“蒸馏”不可能做到现在这样的推理能力的。

多语言支持“AI大同世界”

DeepSeek不仅支持自然语言的理解与生成，还支持多种编程语言的处理。 通过广泛的数据训练和复杂的算法优化， DeepSeek能够在多种语言的上下文中提供高效的解答。

也许有一天，在DeepSeek的基础上，印度工程师可以用梵语诗律重构LSTM的时间箭头，玛雅后裔能将太阳历法编码成时序预测的傅里叶变换，埃及学者同样能在MoE架构中，破译象形文字与神经网络的同源基因。

低训练成本解放“中小公司”

DeepSeek通过优化模型架构和训练策略，成功将其训练成本控制在557万美元左右，相比其他同类大模型，成本显著较低。

当然这里存在一些争议，很多大模型公司提出怀疑，但幻方量化就算管理着千亿基金，但那是人家的钱，能拿出20个亿搞大模型就不得了。

还有人声称其背后有神秘力量支持，但如果没有自身的努力，又怎能让人们相信这样 一家量化公司 有这样的技术能力呢？”

所以DeepSeek低训练成本大致是可信的，不过低到 557万美元 就看人家怎么计算了。但最起码在硬件加速技术、算法优化和资源管理等多方面一定有创新。这给中小公司提供了榜样和动力。

以上，是从一些争议点来谈为什么DeepSeek是中国的同时也是世界的，当然要理解这些争议，同时希望DeepSeek更强大。

少谈“国运”多谈“世界”

少谈国运，多谈世界。

从技术的角度来看， DeepSeek实际上是全球共享的技术创新，它的起点是这个世界。 同时它又通过 开源策略 、MIT许可协议发布其模型和技术报告， 反馈给这个世界 。

动辄谈国运，反而使得DeepSeek的民族主义情绪太强烈，引发更多的对抗。这样的大模型技术，一定是全世界的合力。

算力限制与逆全球化问题

有人猜测说DeepSeek 在算力上使用了英伟达的最新 GPU，美国政府也正在调查新加坡是否存在对接管道。就算这是真的，可这是 DeepSeek 的原罪吗？这难道不是美国搞逆全球化的错？

算力的全球流动性受到政治力量的影响， 指责DeepSeek在这一点上的“责任”并不公正 ，技术的全球化应该是开放的，而不应该受到政治因素造成的封锁。

幻想不是DeepSeek的错，而是你的错

有一些用户指责 DeepSeek 幻想、胡编乱造，进而认为 DeepSeek 有问题。

其实这是你自己的问题， 生成式AI的本质就是“幻想”， 你怎么可能要求它说的完全准确呢？如果你用过其他GPT的话绝不可能说这样的话。

生成式AI的能力是通过概率和模型推理的结果，因此无法完全保证准确无误。 正如使用GPT的用户都明白，生成式AI有其局限性，它的判断和输出也受限于输入数据和训练过程中的假设。完全依赖AI输出并将其作为最终答案的做法是不科学的， 用户应该保持批判性思维和审慎态度。
如果你幻想AI能够“完美”输出内容，或将其视为无误的全知全能工具，是一种愚蠢的看法。

也就是说这是你的错，不是DeepSeek的错。