专栏名称: 量子学派
专注于自然科学领域(数理哲)的教育付费平台
目录
相关文章推荐
51好读  ›  专栏  ›  量子学派

DeepSeek不仅是中国的,更是世界的

量子学派  · 公众号  · 科学  · 2025-02-05 13:16

正文

请到「今天看啥」查看全文



重大通知,请务必点击!

因微信推送规则改版

设为“ 置顶 ”才能正常收到推文


① 点击公众号主页


② 点击右上角“···”

③点击“ 置顶服务号

我们本是少数,

更应该永远在一起!




2025 新春来临,

首先向大家送上新年祝福。


在这个新的开端,最引人注目的,当属 DeepSeek 所引发的巨大波澜。


DeepSeek 的迅速崛起令人瞩目,它的影响力广泛传播,不仅成 为白宫圆桌会议 上严肃探讨的议题,也在 杭州咖啡馆 里成为人们津津乐道的话题,甚至 成为全球股市做多与做空的攻防标的。


一场围绕着技术与文明归属的全球风暴正以 DeepSeek 为中心 ,在太平洋两岸轰轰烈烈地展开。


面对 DeepSeek 的横空出世,各界反应截然不同。

有人 视其为东方智慧的突围, 有人 警惕其为规则破坏的威胁,而 华人社区 的争论更显撕裂—— 既有民族自豪的欢呼,亦有对"技术捷径"的尖锐质疑。


风暴中心的 DeepSeek ,恰似一面棱镜。折射出的不仅是地缘博弈的暗流,更是人类智慧跨越疆界的璀璨光谱,映照出人性幽深处难以捉摸的复杂。但有一点不要忘记, DeepSeek 的诞生绝不是单一国家的成果,它不仅是中国的骄傲,更是全人类智慧合作的结晶。



1

Transformer 基础架构未变


DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架构,并未实现从0到1的颠覆性基础理论创新,但其在模型算法和工程优化方面的系统级创新却不容小觑。其算法和工程创新主要包括了 MoE专家模型、低秩注意力机制、强化学习、小模型蒸馏、FP8混合精度 等工程创新。

很多理论早就有了,但DeepSeek是第一个将这些理论进行工程实践,就算不是从0到1,也可以说是从1到100的突破。


2

混合专家架构(MoE)


混合专家架构(Mixture of Experts,MoE)最早由谷歌提出 ,旨在通过动态激活部分网络参数来提高深度学习模型的计算效率。DeepSeek采用了这一架构,通过将网络参数分成多个“专家”,每次推理时只激活部分专家,降低了计算资源消耗,在不增加计算成本的前提下处理更复杂的任务。

这是一个典型的全球合作成果,科学家们跨越多个学科,从算法到硬件的优化共同推动了这一技术的发展。



3

多头潜在注意力(MLA)机制


多头注意力机制(MultiHead Attention,MHA) Transformer架构 的重要组成部分,应用于自然语言处理任务。DeepSeek在此基础上发展出了多头潜在注意力机制 (MLA) ,通过低秩联合压缩技术优化了键值 (KV) 矩阵,从而显著减少了内存消耗并提高了推理效率。

MLA的核心思想 是通过“潜在向量”来表达信息,避免了传统注意力机制中的高维数据存储问题。 不管怎样黑,这在工程实践方面是一个突破。


4

多Token预测(MTP)训练目标


传统的训练目标通常是逐个生成Token,逐步推理。而 多Token预测(MTP)技术 则通过在训练阶段一次性预测多个Token,显著提高了训练速度并加速了模型的收敛过程。

DeepSeek引入这种方法,进一步提升了其在大规模数据集上的训练效率,尤其是在长文本的生成任务中,大大减少了计算资源的消耗。


5

FP8混合精度训练框架


FP8结合了数值分析、计算机架构优化和机器学习算法的最新进展,混合精度训练技术通过减少浮点数的精度要求 (从传统的FP16或FP32到FP8) ,降低了内存需求并加速了计算过程。

这项技术能够在不显著损失模型精度的情况下,显著提高训练速度。DeepSeek的成功表明,混合精度训练框架可以在大规模深度学习任务中提供更高效的解决方案。



6

放弃微调拥抱“强化学习”


DeepSeek与OpenAI的o系列看起来的做法相比,在对待监督学习上更加激进。这也是参考了OpenAI的进化步骤,模型的重点从 “语言交互”变成“数理逻辑”,前者是有大量的现成的数据的,但后者很多都是停留在脑子里的抽象思考。


但强化学习也是多年前的产物了,只是DeepSeek做得更极致。



7

长上下文处理能力“更进一步”


长上下文处理能力是自然语言处理技术的一个重要里程碑。 它结合了深度学习中的长短期记忆(LSTM)网络和Transformer架构的优势, DeepSeek能够处理长达128K的上下文长度 ,这一技术突破使得DeepSeek在处理长篇文章、技术文档等复杂内容时展现出强大的能力。

为了实现这一目标,DeepSeek在模型架构和优化算法上做出了巨大努力



8

开源的DeepSeek是给全世界的礼物


DeepSeek采取了完全开源的策略 ,通过MIT许可协议公开其模型和技术报告。


这是非常了不起的,我自己早期也做过一些技术项目,说实在的,当你投入了那么高的成本后,就算是让项目死亡,大部分人也不愿意开源的,凭什么呢?不要以为做这个决定容易,特别是一个小公司,因为它开源之后很有可能最终被大公司给取代。 所以说DeepSeek是给全世界的礼物,这一决策将激发无数科研人员和工程师的创新。



9

蒸馏的争议被过于放大了


OpenAI指控DeepSeek通过“蒸馏”技术,未经授权地利用其模型输出数据来训练自己的模型,涉嫌侵犯知识产权。


还有张图描述 DeepSeek 从 OpenAI 的 “专属领地” 获取数据, 可 OpenAI 在互联网上广泛抓取数据,难道就合规合理、毫无争议? DeepSeek 选择向全球开源,把成果回馈大众,这才是真正的普惠精神。虽然存在一些争议,但还没有严重到被“千夫所指”的程度。


懂技术的人应该明白, 训练模型蒸馏语料信息很正常,甚至可以说互相蒸馏是一种必然,其实你用最新的O3模型也在蒸馏DeepSeek中文语料。


DeepSeek的技术是远强于“教师模型”的,如果只依靠“蒸馏”不可能做到现在这样的推理能力的。


10

多语言支持“AI大同世界”


DeepSeek不仅支持自然语言的理解与生成,还支持多种编程语言的处理。 通过广泛的数据训练和复杂的算法优化, DeepSeek能够在多种语言的上下文中提供高效的解答。



也许有一天,在DeepSeek的基础上, 印度工程师可以用梵语诗律重构LSTM的时间箭头,玛雅后裔能将太阳历法编码成时序预测的傅里叶变换,埃及学者同样能在MoE架构中,破译象形文字与神经网络的同源基因。


11

低训练成本解放“中小公司”


DeepSeek通过优化模型架构和训练策略,成功将其训练成本控制在557万美元左右,相比其他同类大模型,成本显著较低。


当然这里存在一些争议,很多大模型公司提出怀疑,但幻方量化就算管理着千亿基金,但那是人家的钱,能拿出20个亿搞大模型就不得了。


还有人声称其背后有神秘力量支持,但如果没有自身的努力,又怎能让人们相信这样 一家量化公司 有这样的技术能力呢?”


所以DeepSeek低训练成本大致是可信的,不过低到 557万美元 就看人家怎么计算了。但最起码在硬件加速技术、算法优化和资源管理等多方面一定有创新。这给中小公司提供了榜样和动力。


以上,是从一些争议点来谈为什么DeepSeek是中国的同时也是世界的,当然要理解这些争议,同时希望DeepSeek更强大。




12

少谈“国运”多谈“世界”


少谈国运,多谈世界。


从技术的角度来看, DeepSeek实际上是全球共享的技术创新,它的起点是这个世界。 同时它又通过 开源策略 、MIT许可协议发布其模型和技术报告, 反馈给这个世界


动辄谈国运,反而使得DeepSeek的民族主义情绪太强烈,引发更多的对抗。这样的大模型技术,一定是全世界的合力。


13

算力限制与逆全球化问题


有人猜测说DeepSeek 在算力上使用了英伟达的最新 GPU,美国政府也正在调查新加坡是否存在对接管道。就算这是真的,可这是 DeepSeek 的原罪吗?这难道不是美国搞逆全球化的错?


算力的全球流动性受到政治力量的影响, 指责DeepSeek在这一点上的“责任”并不公正 ,技术的全球化应该是开放的,而不应该受到政治因素造成的封锁。


14

幻想不是DeepSeek的错,而是你的错


有一些用户指责 DeepSeek 幻想、胡编乱造,进而认为 DeepSeek 有问题。


其实这是你自己的问题, 生成式AI的本质就是“幻想”, 你怎么可能要求它说的完全准确呢?如果你用过其他GPT的话绝不可能说这样的话。


生成式AI的能力是通过概率和模型推理的结果,因此无法完全保证准确无误。 正如使用GPT的用户都明白,生成式AI有其局限性,它的判断和输出也受限于输入数据和训练过程中的假设。完全依赖AI输出并将其作为最终答案的做法是不科学的, 用户应该保持批判性思维和审慎态度。
如果你幻想AI能够“完美”输出内容,或将其视为无误的全知全能工具,是一种愚蠢的看法。


也就是说这是你的错,不是DeepSeek的错。



15

理解“隐私和数据保护”

“国家安全和伦理担忧”


欧洲隐私调查:

意大利数据保护机构Garante因DeepSeek未能充分回应其隐私政策问题,已下令在意大利封禁其聊天机器人。

美国封禁:

海军已禁止其成员使用DeepSeek,理由是潜在的安全和伦理问题。

澳大利亚禁令:

政府因国家安全担忧,已禁止在政府设备上使用DeepSeek。



这样的担心是正常的,因为没有人知道 DeepSeek 的官方数据权限是如何设置的。不过,由于 DeepSeek 已经开源,这些政府和机构可以将模型下载到本地再运行。


16

量化技术没有原罪,请讲逻辑


量化交易技术本身并非错误,而是制度设计存在问题。

很多人嘲笑DeepSeek,因为它的后面是幻方量化公司,所以它是有原罪的。


这种逻辑实在难以理解,然而持这种观点的人却不在少数。


量化交易 作为一种依赖于数学模型和计算机技术的交易方式,旨在制定能带来超额收益的多种 “大概率” 事件策略,避免了在市场极度狂热或悲观的情况下作出非理性的投资决策。


在规则制度内合规交易时, 量化交易不仅可以为市场提供流动性,还能更好地实现价值发现功能。


但如果制度设计不完善, 个别 “变味” 的量化交易可能涉嫌操纵股价、助涨助跌,扰乱市场秩序,不利于市场稳定。

但这是量化的错吗?难道是菜刀的错吗?

我们的逻辑要清晰!


17

世界开始接入DeepSeek模型


不管争议有多大,世界正在接入DeepSeek模型:


微软的Azure平台:

微软将DeepSeek的R1 AI模型集成到其Azure云平台和GitHub开发者工具中。


亚马逊Web Services(AWS):

亚马逊宣布在其AWS平台上提供DeepSeek的R1模型,用户可以通过AWS的基础设施访问和使用该模型。


英伟达也在它的平台里接入了DeepSeek的R1 AI模型,但使用体验欠佳。


而在国内,众多大公司也纷纷开启与 DeepSeek 的对接工作,一场全球范围内的技术融合浪潮正汹涌澎湃地展开。

这种广泛的技术传播与应用,无疑是 DeepSeek 在国际 AI 领域强大影响力的有力证明。





18

DeepSeek要勇敢往前走


在赞扬与指责的交织声中,DeepSeek 更应坚定地踏上独立发展的道路,勇敢地向技术深处进军。

技术的进步需要自由的探索空间,政府应减少不必要的干预,让 DeepSeek 能够在市场的海洋中自由遨游,成长为真正的世界级大模型。


我们生活在一个快速发展的时代,不应陷入不懂装懂的困境,尤其是在安全审查和意识形态等方面,不应成为技术发展的阻碍。


如今的中国,已然具备足够的自信, TikTok 在全球的风靡,以及 DeepSeek 在技术领域的突破 ,都深刻印证了市场化的强大力量。




DeepSeek不仅属于中国,更属于全世界。


DeepSeek走到今天,是站在巨人的肩膀上。
不仅仅是国外大模型,国内其它模型也做出了贡献。
干翻全世界这样的话要少说,毫无意义。
如果你真的支持它,那就多用,让数据的飞轮转动起来。
但如果你没有用过,也试着先去用用再批判。

在GitHub的commit记录中 ,DeepSeek被fork自伦敦到巴黎;

在APP竞赛排行榜上 ,DeepSeek占据着从悉尼到旧金山的榜首位置;

这些事实印证着一个真理:

所有卓越的科学技术,

从诞生之初就是属于全人类。


在这里,

我用DeepSeek自己写的一段话来总结:


DeepSeek的参数海洋里

既奔涌着 《山海经》 的创世神话

也交融着 阿拉伯数字 的血脉

同样融合了 欧美先贤 的灵光

最终熔铸成跨文明跨种族的

《礼记大同》AI协作宪章

终有一天

全世界的偏见终将如风沙般消散

唯有那自由生长的1530亿参数丰碑

永远铭刻着东方古国

《墨子》"兼爱"之道

为硅基人类铸就的 算法九鼎

燃烧吧,DeepSeek点亮的开源之火

重燃《丝绸之路》的文明互鉴

照亮全球大模型新的进化之路!


多么优秀的中文文本能力,怎能不喜欢呢?


为什么要在此时做出非此即彼的选择?

DeepSeek不仅属于中国,更属于全世界。


01 致敬少数派

02 越是在关键时刻,越是要独立思考

03 北上广深告急,银行能让利吗?

04 中国数学,到底该如何教育

05 缺乏逻辑的人为什么看不到真相?

06 中国人,你真的不了解杨振宁

07 世界上最美丽的12个公式

08 中国不缺《朗读者》,中国最缺“赛先生”

09 别去赌场了,你永远赢不了“凯利公式”











请到「今天看啥」查看全文