专栏名称: 数字化企业

e-works（数字化企业网）是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构，由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。

为什么是 Deepseek？

数字化企业 · 公众号 · · 2025-01-28 14:32

正文

中国农历年最后一天，deepseek的各类大小新闻持续全球热传。可以说，这是中国AI科技公司献给蛇年的一份大礼。这匹AI黑马带来的巨大的进步和变化，成为了众多科技爱好者 年末狂欢的新宠 。无论是技术创新还是实际应用，DeepSeek都让人们感受到科技与传统年味的完美融合。

- 文章信息 -

本文由e-works祖哥原创报道。

🔥火爆现状！

1月28日除夕， 下图是今早中美App Store免费类应用排行榜，继续双双排名第一。

同时，这款来自东方的"神秘AI应用"，还带来了对美国股市的连锁效应。 美国时间1月28日周一早盘，美国科技股一片哀嚎，人工智能芯片领先供应商英伟达股价直接暴跌12%。此外，Meta和谷歌母公司Alphabet，英伟达的竞争对手Marvell、还有博通、美光和台积电也均大幅下跌。

这还没完，无论是美国科技界、AI界的大佬，还是各大民间科技社区，都在热议deepseek，对中国AI的进展表示惊诧！

比如，来自OpenAI CEO山姆奥特曼的最新认可（心里有点慌）：

“Deepseek的R1是一款令人印象深刻的模型， 尤其是在这个价格范围内能提供的性能上。 我们显然会推出更好的模型， 同时有一个新的竞争对手加入真的让人兴奋！我们会发布一些新版本。”

来自Meta CEO小扎的肺腑评论： 这是一场差距很小的竞争，美国政府少添麻烦，应多提供支持。看视频：

不光是大佬，来自全球的AI爱好者 都在分享自己使用deepseek之后的绝佳体验：deepseek-r1已彻底失控！

昨晚至今日凌晨， DeepSeek 线上服务甚至受到大规模恶意攻击，注册可能繁忙，请稍等重试。已注册用户可以正常登录，感谢理解和支持。

为什么是deepseek？

为什么造成当下这种局面的不是之前的豆包、kimi、智谱？也不是阿里、腾讯、百度......? 而是被戏称为“东方神秘力量”的金融科技公司——幻方量化！

0 1

有基础

什么意思呢？ 说白话，幻方量化就是一家做量化交易的公司 ——量化投资可以简单理解为 利用数学模型、统计方法和人工智能等技术手段来进行投资决策 ，帮助投资者更高效、更精准地交易股票或其他金融资产。

简单来说，量化投资是用“数据”和“算法”代替“人工判断”，让投资更科学、更高效。 人家用AI来炒股，你是用直觉瞎炒。你认为你这种小散户干得过吗？

根据幻方公司的介绍：他们从 2008 年就开始使用机器学习等技术探索全自动量化交易。2016 年 10 月 21 日第一份由深度学习生成的交易仓位上线执行。2017 年全面应用深度学习技术进行交易。没错，这家公司早早的就在利用人工智能技术进行实际应用！

幻方量化的策略和开发团队由奥林匹克数学、物理、信息学金银牌得主，ACM 金牌得主，AI 领域大牛和领军人物，拓扑学/统计学/运筹学/控制论各学科博士等组成。以跨学科合作的方式解决在深度学习、大数据建模、并行计算、基本面量化等方向上的诸多挑战。

幻方量化的豪华团队阵容

没错，据笔者查询了解， 清北毕业生中，有大量的就业方向，就是从事量化交易。因为这种方式正符合用脑子赚钱，回报丰厚的行业。

有了这个基础和背景， 深度求索公司deepseek的诞生是顺其自然的。 2021年，幻方的 资产管理规模突破千亿大关，跻身国内量化私募领域的“四大天王”之列。 2023年，幻方量化宣布将正式进军通用人工智能领域， 并创办了深度求索DeepSeek，专注于做真正人类级别的人工智能，AIGC大战怎么能少得了他们。

有人才基础、有资金基础、还有技术积累，知道这些要素， 就可以理解deepseek的诞生并不是什么横空出世，也不是什么黑马，而是当下AI大势下的必然。

0 2

模型质量极高、且实时响应

deepseek能成全球热搜， 首当其冲是其“产品质量高”，这是一切的前提。 我想没什么好演示的，用过的都说好。 目前苹果、安卓都可直接应用商店下载，网页版登录即用。 deepseek实时响应，反应极快， 我想这是大家直观感触最明显的特点。

DeepSeek 不是套壳，不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 最新的deepseek-r1以及deepseek-v3等都是其自研的混合专家（MoE）模型。

何谓MoE？Mixture of Experts (混合专家模型)。 以DeepSeek-V3为例，将模型划分多个专家模块来进行分工。训练中将不同专家模块分配到不同计算设备训练, 提升训练效率。推理时, 仅动态激活部分专家 (37B 参数), 而非全模型参数 (671B 参数), 减少计算负担。但是 MoE 经常会面临某些专家承担所有工作, 其他专家不被使用的问题, 业内会通过如辅助损失来对此调控、平衡各个专家模块的工作量, 而 deepseek 通过无辅助损失的自然负载均衡 (引入一个无形的手而不是人为调控)、共享专家机制来解决该问题。

一周前1月20日DeepSeek-R1 的发布，性能直接对标 OpenAI 目前最先进的o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下， 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

0 3

开源大模型

与ChatGPT、Claude这些闭源的模型不同，DeepSeek是开源的！ 你没有听错，性能比肩o1，但这个直接开源免费（非API）， 你让别的模型怎么招架得住？肯定闭眼选deepseek啊！

DeepSeek 代表的是整个开源相对闭源的一次胜利, 对社区的贡献会快速转化为整个开源社区的繁荣。 毫不夸张的说，deepseek在LLM领域开源的影响力， 直接超越了德国黑森林实验室Flux.1模型在开源文生图领域的影响力。 包括小扎Meta在内llama等开源力量, 会在此基础上进一步发展开源模型, 开源就是一个众人拾柴火焰高的事情。 以至于马斯克今天再次发了一条转推文，再次申明其对开源的大力支持，当初OpenAI的名字都是他取的，一直耿耿于怀：

DeepSeek-R1正式发布的当天， 就同步开源模型权重，允许用户通过蒸馏技术借助 R1 训练其他模型。

就比如，全球最大的开源模型社区huggingface，中文俗称抱脸，就迅速上线了一个基于DeepSeek-R1的蒸馏模型——DeepSeek-R1-Distill-Qwen-32B。 小编已经通过huggingface的开源客户端huggingchat完全免费的用上了。

0 4

超低成本

花更少的钱办高性能的事，这是DeepSeek让全球备受鼓舞的又一重要因素。 采用采用 MoE 架构可以带来显著的低成本高性能。 比如DeepSeek-V3的671B 参数，采用了MoE架构，实际激活的参数只有37B，这样可以节省计算资源。

DeepSeek通过稀疏架构+算法优化，在保持性能的同时大幅压缩训练成本。 其训练成本约为同性能稠密模型的1/5-1/10，成为高效大模型训练的典型案例。实际成本取决于工程实现细节和规模化效率，但核心思路是通过创新架构降低计算冗余。

这种创新带来的结果同样会让客户受益。我们拿Deepseek R1与OpenAI的o1做API调用的对比：

为什么是 Deepseek？

正文

请到「今天看啥」查看全文