专栏名称: 网信浙江
浙江省互联网信息办公室主办,围绕浙江网络安全与信息化工作,提供最权威、最前沿、最全面的信息服务,搭建有态度、有深度、有温度的发布平台,创建可思考、可体验、可分享的交流空间。
目录
相关文章推荐
51好读  ›  专栏  ›  网信浙江

DeepSeek 全球爆火,到底火在哪

网信浙江  · 公众号  ·  · 2025-01-31 12:02

正文

近日

中国AI大模型创业公司

DeepSeek(深度求索)

正式发布DeepSeek-R1大模型


1月27日

苹果App Store中国区免费榜显示

DeepSeek站上首位

同时其在美区苹果App Store免费榜

从26日的第六位飚升至第一位

超越ChatGPT、

Meta旗下社交媒体平台Threads、

Google Gemini、Microsoft Copilot等

美国科技公司的生成式AI产品


DeepSeek表示

DeepSeek-R1在数学、代码

自然语言推理等任务上

性能比肩OpenAI o1正式版



这一消息震动了全球AI圈

迅速引起国际社会

广泛关注与讨论


“高性价比”引发AI圈震动


DeepSeek-R1大模型发布之前

DeepSeek公司就已经因为“性价比高”

而引发AI圈震动


公开资料显示

DeepSeek

成立于2023年7月17日

是一家创新型科技公司

专注于开发先进的

大语言模型(LLM)和相关技术


2023年11月2日

DeepSeek推出

首个模型DeepSeek Coder

该模型免费供商业使用

且完全开源


2023年11月29日

DeepSeek LLM上线

其参数规模达到67B

性能接近GPT-4

同时还发布了

该模型聊天版本DeepSeek Chat


2024年5月

DeepSeek-V2发布

该模型在性能上

比肩GPT-4 Turbo

价格却只有GPT-4的百分之一


2024年12月底

DeepSeek-V3发布

其性能与GPT-4o和Claude Sonnet 3.5等

顶尖模型相近

但训练成本极低

整个训练在2048块

英伟达H800 GPU集群上完成

仅花费约557.6万美元

相比之下

GPT-4o等模型至少要在

万个GPU量级的计算集群上训练

且使用的是性能更为优越的H100 GPU

训练成本约1亿美元


DeepSeek-V3发布后

英伟达高级研究科学家Jim Fan

在社交媒体上表示

DeepSeek是2024年度

开源大语言模型领域的“最大黑马”



近期推出的DeepSeek-R1模型

在数学能力基准测试中

达到了77.5%的准确率

与OpenAI的o1不相上下

在编程领域的Codeforces评测中

达到了2441分的水平

高于96.3%的人类参与者


开源实现“弯道超车”


DeepSeek R1被讨论的焦点

集中在两方面:

低训练与使用成本

以及开源


区别于OpenAI

“海量数据投喂”的方式

DeepSeek利用算法

把数据进行总结分类

经过选择性处理之后

输送给大模型

在提高训练效率的同时

也降低了DeepSeek的成本

在DeepSeek的高性价比模型发布后

OpenAI创始成员

Andrej Karpathy表示

未来或许不需要

超大规模的GPU集群了


除了极致性价比

让DeepSeek大模型

脱颖而出的还有

其代码和训练方法完全开源


目前

DeepSeek-R1已经一跃成为

开源社区Hugging Face上

下载量最高的大模型

达10.9万次

这意味着全球的开发人员

正在试图了解这一模型

以辅助他们自己的AI开发


DeepSeek创始人梁文锋表示

开源更像一个文化行为

而非商业行为

在颠覆性的技术面前

闭源形成的护城河是短暂的

即使OpenAI闭源

也无法阻止被别人赶超


加州大学伯克利分校AI政策研究员

Ritwik Gupta表示

DeepSeek-R1的出现证明了

“AI能力没有技术护城河”

并称中国的系统工程师

人才库比美国大得多

他们懂得如何充分利用计算资源

来更高效地训练和运行模型



Meta首席人工智能科学家杨立昆







请到「今天看啥」查看全文