来源:究模智
昨晚,DeepSeek 在毫无预告的情况下,悄然上线了最新版本的 DeepSeek-V3-0324 模型。此次更新虽非万众期待的 DeepSeek-R2,但在编程、数学推理等方面带来了显著提升,甚至在某些能力上已接近 Claude 3.7 Sonnet,引发AI社区广泛关注。
DeepSeek-V3-0324 基于 6850亿参数 架构(实际激活参数约370亿),采用混合专家(MoE)设计,优化了计算效率。DeepSeek此次创新的同时也强调了模型训练过程中的负载均衡策略,引入了“偏差项”机制,有效协调各个专家节点的负载。此外,其采用的节点受限路由机制,在大规模分布式训练过程中,显著降低了跨节点通信的成本,提高了整体训练效率。
该模型还采用了另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA 增强了模型在长篇文本中保持上下文的能力,而 MTP 每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。
主要亮点包括:
1.编程能力显著增强
在代码生成、调试、前端开发等方面表现优异,网友实测其能力已超过Claude 3.5 Sonnet,接近 Claude 3.7 Sonnet,甚至在某些任务上超越 GPT-4.5 和 o1-pro。相比前代 DeepSeek-V3,新版本在前端代码生成上改进明显,能一次性编写数百行代码而不出错。
2.数学推理能力提升
新模型能处理更复杂的数学问题,如AIME(美国数学邀请赛)题目,甚至能解决传统上只有专业推理模型(如Claude 3.7)才能应对的逻辑推理题。
3.推理速度优化,消费级设备可运行
采用 FP8 精度训练,计算效率翻倍。
开发工具创建者Simon Willison指出,
通过 4-bit 量化,模型存储占用降至 352GB,从而可以在搭载M3 Ultra 芯片的Mac Studio等高端消费硬件上运行。
AI 研究员Awni Hannun在社交媒体上写道:“新的 4 位 DeepSeek-V3-0324 在配备 mlx-lm 的 512GB M3 Ultra 上以每秒 20 个令牌的速度运行!”
根据 KCORES大模型竞技场的数据,DeepSeek-V3-0324 在代码能力测试中拿下 328.3分,超越 Claude 3.7 Sonnet 普通版(322.3分),接近其思维链版本(334.8分)。此外,在 Aider多语言基准测试 中,新模型以 55% 的成绩位列 非推理类模型第二名。
人工智能研究员
Xeophon
在 X.com 的一篇文章中宣称:“我在内部工作台上测试了新版 DeepSeek V3,发现它在所有测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了 Sonnet 3.5。”
DeepSeek V3-0324 在代码创造力基准测试中已经赶上了 Sonnet 3.7——“用 Python 编写一个光线追踪器,用许多彩色光源渲染一个有趣的场景。”
只允许一次尝试,没有反复提示来解决bug代码。有趣的是,大多数 LLM 生成的代码都创建了一个非常简单的场景,其中有一个红色、绿色和蓝色球体,而且通常也没有正确对齐。其中Sonnet 3.5,尤其是 Sonnet 3.7 创建的程序能够生成更复杂、更多样化的场景,并使用更漂亮的颜色,同时文件大小也增加了。Anthropic 已经找到了某种方法让模型增加编码的创造力并增强了审美。
经过测试,DeepSeek V3 0324已经完全赶上Claude Sonnet 3.7 了,比 V3 有了很大的进步!
https://github.com/cpldcpu/llmbenchmark/blob/master/raytracer/Readme.md
DeepSeek 此次更新延续了其 “低调发布,高调进步” 的风格,DeepSeek-V3-0324发布没有附带白皮书或营销宣传,只有一个空的README 文件和模型权重本身,这与其他AI 公司精心策划的产品发布形成了鲜明对比。
分析师认为,DeepSeek 的快速迭代正在缩小中美AI差距,
其性能可以直接对标 Claude 3.7、GPT-4.5 等闭源模型。此外,DeepSeek 的高性价比可能迫使 Anthropic、OpenAI 调整定价策略。
目前,DeepSeek-V3-0324 已上线 官方网站、App 及小程序(需关闭“深度思考”功能),同时可在 Hugging Face 下载开源版本:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324