本文转自微信公众号“量子位”,作者:关注前沿科技。
鱼羊 一水 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek新版模型正式发布,技术大佬们都转疯了!
延续
便宜大碗
特点的基础之上,DeepSeek V3发布即
完全开源
,直接用了53页论文把训练细节和盘托出的那种。
怎么说呢,QLoRA一作的一个词评价就是:优雅。
具体来说,DeepSeek V3是一个参数量为
671B
的MoE模型,
激活37B
,在
14.8T
高质量token上进行了预训练。
在多项测评上,DeepSeek V3达到了开源SOTA,超越Llama 3.1 405B,能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——
而其价格比Claude 3.5 Haiku还便宜,仅为Claude 3.5 Sonnet的9%。
更重要的是,大家伙儿还第一时间在论文中发现了关键细节:
DeepSeek V3整个训练过程仅用了不到
280万个GPU小时
,相比之下,Llama 3 405B的训练时长是
3080万GPU小时
(p.s. GPU型号也不同)。
直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币),而只是训练一个7B的Llama 2,就要花费76万美元(约合555万人民币)。
OpenAI创始成员Karpathy对此赞道:
DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。
DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。
Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:
这是非常伟大的工作。
全网热烈实测中
先来看官方说法,新模型这次主要有以下几个特点:
首先从模型能力来看,其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,甚至还和一些顶尖闭源模型
(如GPT-4o以及Claude-3.5-Sonnet)
不分伯仲。
从实际响应来看,其生成速度提升了
3倍
,每秒生成60个tokens。
在又快又好的同时,DeepSeek V3的
API价格
也被打下来了。
每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元
单论价格,正如一开始提到的,它几乎是Claude 3.5 Sonnet的1/53
(后者每百万输入3美元、输出15美元)
。
而如果要平衡性能和成本,它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。
对了,DeepSeek这次还搞了一个
45天优惠价格体验期
,也就是在2025年2月8日之前,所有用户使用DeepSeek V3 API的价格分别下降了80%
(输入命中)
、50%
(输入未命中)
,75%
(输出)
。
每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元
最后,官方此次一同开源了
原生FP8权重
,并提供了从FP8到BF16的转换脚本。
具体而言,SGLang和LMDeploy这两个框架已支持FP8推理,另外两个框架TensorRT-LLM和MindIE则支持BF16推理
(适合需要更高精度的场景)
。
目前普通用户可以通过官网
(chat.deepseek.com)
与DeepSeek V3展开对话,API也已同步更新,接口配置无需改动。
知名AI博主AK亲测,只需几行代码就能将它部署到Gradio。
Okk,话说到这里,我们直接来看一些实测效果吧。
首位全职提示词工程师出新题,DeepSeek V3完全答对
这第一关,来自首位全职提示词工程师Riley Goodside。
新题为“Which version is this?”,考察模型对自身版本的理解。接受考验的选手除了DeepSeek V3,还有Claude、Gemini、ChatGPT和Grok。
先说结论,按Riley的说法,这几位的回答主打
“各不相同”
,不过DeepSeek V3完全答对了。
Claude 3.5 Sonnet也对其版本了如指掌——不仅说对了版本号
(许多用户非官方地称这个版本为3.5.1或3.6)
,还给出了发布月份。
(不过Claude 3.5 Haiku出错了,误识别为Claude 3 Haiku。)
不过后面几位选手就开始各种出错了,尤其是ChatGPT和Grok。
ChatGPT要么给出模糊答案
(基于GPT-4架构)
,要么直接自信给出错误版本,总之处于比较懵圈的状态。
而Grok更是独特,理论倒是一套一套,但就是不说自己的版本。
(除非直接问它是哪个Grok模型)
除此之外,一些网友还进行了更多测试。
更多网友整活
比如这位Tom小哥惊讶表示,DeepSeek V3无需开发者详细解释,就能“诡异”理解整个项目。