专栏名称: 数字化企业
e-works(数字化企业网)是我国领先、全球知名的智能制造专业媒体、咨询培训与研究机构,由著名制造业专家、中国机械工程学会理事长李培根院士创立。本号专注于智能制造、工业互联网、数字化转型干货知识传播。
目录
相关文章推荐
数据派THU  ·  【ICLR2025】CUBEDIFF:将基于 ... ·  昨天  
数据派THU  ·  提升数据科学工作流效率的10个Jupyter ... ·  2 天前  
高工智能汽车  ·  连亏两年,经纬恒润“压力”不减 ·  昨天  
国家数据局  ·  2024年“数据要素×”大赛优秀项目案例集— ... ·  18 小时前  
大数据与机器学习文摘  ·  突发!o3-mini ... ·  3 天前  
51好读  ›  专栏  ›  数字化企业

为什么是 Deepseek?

数字化企业  · 公众号  ·  · 2025-01-28 14:32

正文





中国农历年最后一天,deepseek的各类大小新闻持续全球热传。可以说,这是中国AI科技公司献给蛇年的一份大礼。这匹AI黑马带来的巨大的进步和变化,成为了众多科技爱好者 年末狂欢的新宠 。无论是技术创新还是实际应用,DeepSeek都让人们感受到科技与传统年味的完美融合。
- 文章信息 -


本文由e-works祖哥原创报道。


01

🔥火爆现状!


1月28日除夕, 下图是今早中美App Store免费类应用排行榜,继续双双排名第一。


同时,这款来 自东方的"神秘AI应用",还带来了对美国股市的连锁效应。 美国时间1月28日周一早盘,美国科技股一片哀嚎,人工智能芯片领先供应商英伟达股价直接暴跌12%。此外,Meta和谷歌母公司Alphabet,英伟达的竞争对手Marvell、还有博通、美光和台积电也均大幅下跌。


这还没完,无论是美国科技界、AI界的大佬,还是各大民间科技社区,都在热议deepseek,对中国AI的进展表示惊诧!


比如,来自OpenAI CEO山姆奥特曼的最新认可(心里有点慌):

“Deepseek的R1是一款令人印象深刻的模型, 尤其是在这个价格范围内能提供的性能上。 我们显然会推出更好的模型, 同时有一个新的竞争对手加入真的让人兴奋!我们会发布一些新版本。”


来自Meta CEO小扎的肺腑评论: 这是一场差距很小的竞争,美国政府少添麻烦,应多提供支持。看视频:


不光是大佬,来自全球的AI爱好者 都在分享自己使用deepseek之后的绝佳体验:deepseek-r1已彻底失控!


昨晚至今日凌晨, DeepSeek 线上服务甚至受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。


02

为什么是deepseek?


为什么造成当下这种局面的不是之前的豆包、kimi、智谱?也不是阿里、腾讯、百度......? 而是被戏称为“东方神秘力量”的金融科技公司——幻方量化!


0 1
有基础



什么意思呢? 说白话,幻方量化就是一家做量化交易的公司 ——量化投资可以简单理解为 利用数学模型、统计方法和人工智能等技术手段来进行投资决策 ,帮助投资者更高效、更精准地交易股票或其他金融资产。

简单来说,量化投资是用“数据”和“算法”代替“人工判断”,让投资更科学、更高效。 人家用AI来炒股,你是用直觉瞎炒。你认为你这种小散户干得过吗?


根据幻方公司的介绍: 他们从 2008 年就开始使用机器学习等技术探索全自动量化交易。2016 年 10 月 21 日第一份由深度学习生成的交易仓位上线执行。2017 年全面应用深度学习技术进行交易。没错,这家公司早早的就在利用人工智能技术进行实际应用!

幻方量化的策略和开发团队由奥林匹克数学、物理、信息学金银牌得主,ACM 金牌得主,AI 领域大牛和领军人物,拓扑学/统计学/运筹学/控制论各学科博士等组成。 以跨学科合作的方式解决在深度学习、大数据建模、并行计算、基本面量化等方向上的诸多挑战。

幻方量化的豪华团队阵容


没错,据笔者查询了解, 清北毕业生中,有大量的就业方向,就是从事量化交易。因为这种方式正符合用脑子赚钱,回报丰厚的行业。


有了这个基础和背景, 深度求索公司deepseek的诞生是顺其自然的。 2021年,幻方的 资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。 2023年,幻方量化宣布将正式进军通用人工智能领域, 并创办了深度求索DeepSeek,专注于做真正人类级别的人工智能,AIGC大战怎么能少得了他们。

有人才基础、有资金基础、还有技术积累,知道这些要素, 就可以理解deepseek的诞生并不是什么横空出世,也不是什么黑马,而是当下AI大势下的必然。

0 2
模型质量极高、且实时响应



deepseek能成全球热搜, 首当其冲是其“产品质量高”,这是一切的前提。 我想没什么好演示的,用过的都说好。 目前苹果、安卓都可直接应用商店下载,网页版登录即用。 deepseek实时响应,反应极快, 我想这是大家直观感触最明显的特点。


DeepSeek 不是套壳,不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 最新的deepseek-r1以及deepseek-v3等都是其自研的混合专家(MoE)模型。

何谓MoE?Mixture of Experts (混合专家模型)。 以DeepSeek-V3为例,将模型划分多个专家模块来进行分工。训练中将不同专家模块分配到不同计算设备训练, 提升训练效率。推理时, 仅动态激活部分专家 (37B 参数), 而非全模型参数 (671B 参数), 减少计算负担。但是 MoE 经常会面临某些专家承担所有工作, 其他专家不被使用的问题, 业内会通过如辅助损失来对此调控、平衡各个专家模块的工作量, 而 deepseek 通过无辅助损失的自然负载均衡 (引入一个无形的手而不是人为调控)、共享专家机制来解决该问题。

一周前1月20日DeepSeek-R1 的发布,性能直接对标 OpenAI 目前最先进的o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。


0 3
开源大模型



与ChatGPT、Claude这些闭源的模型不同,DeepSeek是开源的! 你没有听错,性能比肩o1,但这个直接开源免费(非API), 你让别的模型怎么招架得住?肯定闭眼选deepseek啊!

DeepSeek 代表的是整个开源相对闭源的一次胜利, 对社区的贡献会快速转化为整个开源社区的繁荣。 毫不夸张的说,deepseek在LLM领域开源的影响力, 直接超越了德国黑森林实验室Flux.1模型在开源文生图领域的影响力。 包括小扎Meta在内llama等开源力量, 会在此基础上进一步发展开源模型, 开源就是一个众人拾柴火焰高的事情。 以至于马斯克今天再次发了一条转推文,再次申明其对开源的大力支持,当初OpenAI的名字都是他取的,一直耿耿于怀:


DeepSeek-R1正式发布的当天, 就同步开源模型权重,允许用户通过蒸馏技术借助 R1 训练其他模型。

就比如,全球最大的开源模型社区huggingface,中文俗称抱脸,就迅速上线了一个基于DeepSeek-R1的蒸馏模型——DeepSeek-R1-Distill-Qwen-32B。 小编已经通过huggingface的开源客户端huggingchat完全免费的用上了。


0 4
超低成本


花更少的钱办高性能的事,这是DeepSeek让全球备受鼓舞的又一重要因素。 采用采用 MoE 架构可以带来显著的低成本高性能。 比如DeepSeek-V3的671B 参数,采用了MoE架构,实际激活的参数只有37B,这样可以节省计算资源。

DeepSeek通过稀疏架构+算法优化,在保持性能的同时大幅压缩训练成本。 其训练成本约为同性能稠密模型的1/5-1/10,成为高效大模型训练的典型案例。实际成本取决于工程实现细节和规模化效率,但核心思路是通过创新架构降低计算冗余。

这种创新带来的结果同样会让客户受益。我们拿Deepseek R1与OpenAI的o1做API调用的对比:






请到「今天看啥」查看全文