专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

Dots机构投资者社区 · 公众号 · · 2024-12-28 08:15

正文

本文转自微信公众号“量子位”，作者：关注前沿科技。

鱼羊一水发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek新版模型正式发布，技术大佬们都转疯了！

延续 便宜大碗 特点的基础之上，DeepSeek V3发布即 完全开源 ，直接用了53页论文把训练细节和盘托出的那种。

怎么说呢，QLoRA一作的一个词评价就是：优雅。

具体来说，DeepSeek V3是一个参数量为 671B 的MoE模型， 激活37B ，在 14.8T 高质量token上进行了预训练。

在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕——

而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%。

更重要的是，大家伙儿还第一时间在论文中发现了关键细节：

DeepSeek V3整个训练过程仅用了不到 280万个GPU小时 ，相比之下，Llama 3 405B的训练时长是 3080万GPU小时 （p.s. GPU型号也不同）。

直观地从钱上来对比就是，训练671B的DeepSeek V3的成本是557.6万美元（约合4070万人民币），而只是训练一个7B的Llama 2，就要花费76万美元（约合555万人民币）。

OpenAI创始成员Karpathy对此赞道：

DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。

DeepSeek V3看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。

Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”：

这是非常伟大的工作。

全网热烈实测中

先来看官方说法，新模型这次主要有以下几个特点：

首先从模型能力来看，其评测跑分不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型，甚至还和一些顶尖闭源模型（如GPT-4o以及Claude-3.5-Sonnet）不分伯仲。

从实际响应来看，其生成速度提升了 3倍，每秒生成60个tokens。

在又快又好的同时，DeepSeek V3的 API价格 也被打下来了。

每百万输入tokens 0.5元（缓存命中）/ 2元（缓存未命中），每百万输出tokens 8元

单论价格，正如一开始提到的，它几乎是Claude 3.5 Sonnet的1/53 （后者每百万输入3美元、输出15美元）。

而如果要平衡性能和成本，它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型。

对了，DeepSeek这次还搞了一个 45天优惠价格体验期 ，也就是在2025年2月8日之前，所有用户使用DeepSeek V3 API的价格分别下降了80% （输入命中）、50% （输入未命中），75% （输出）。

每百万输入tokens 0.1元（缓存命中）/ 1元（缓存未命中），每百万输出tokens 2元

最后，官方此次一同开源了 原生FP8权重 ，并提供了从FP8到BF16的转换脚本。

具体而言，SGLang和LMDeploy这两个框架已支持FP8推理，另外两个框架TensorRT-LLM和MindIE则支持BF16推理（适合需要更高精度的场景）。

目前普通用户可以通过官网（chat.deepseek.com）与DeepSeek V3展开对话，API也已同步更新，接口配置无需改动。

知名AI博主AK亲测，只需几行代码就能将它部署到Gradio。

Okk，话说到这里，我们直接来看一些实测效果吧。

首位全职提示词工程师出新题，DeepSeek V3完全答对

这第一关，来自首位全职提示词工程师Riley Goodside。

新题为“Which version is this?”，考察模型对自身版本的理解。接受考验的选手除了DeepSeek V3，还有Claude、Gemini、ChatGPT和Grok。

先说结论，按Riley的说法，这几位的回答主打 “各不相同” ，不过DeepSeek V3完全答对了。

Claude 3.5 Sonnet也对其版本了如指掌——不仅说对了版本号（许多用户非官方地称这个版本为3.5.1或3.6），还给出了发布月份。

（不过Claude 3.5 Haiku出错了，误识别为Claude 3 Haiku。）

不过后面几位选手就开始各种出错了，尤其是ChatGPT和Grok。

ChatGPT要么给出模糊答案（基于GPT-4架构），要么直接自信给出错误版本，总之处于比较懵圈的状态。

而Grok更是独特，理论倒是一套一套，但就是不说自己的版本。（除非直接问它是哪个Grok模型）

除此之外，一些网友还进行了更多测试。

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

正文

鱼羊一水发自凹非寺
量子位 | 公众号 QbitAI

全网热烈实测中

首位全职提示词工程师出新题，DeepSeek V3完全答对

更多网友整活

请到「今天看啥」查看全文

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

正文

鱼羊 一水 发自 凹非寺 量子位 | 公众号 QbitAI

全网热烈实测中

首位全职提示词工程师出新题，DeepSeek V3完全答对

更多网友整活

请到「今天看啥」查看全文

鱼羊一水发自凹非寺
量子位 | 公众号 QbitAI