引言
DeepSeek-V3新版本:DeepSeek-V3-0324昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7。
链接:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
更多精彩内容
-->
专注大模型/AIGC、Agent、RAG等学术前沿分享!
参数量与性能提升
-
参数量
:DeepSeek-V3-0324的参数量达到685B,相比上一版本671B略有增加。
-
代码能力
:代码生成和理解能力显著提升,能够与Claude 3.7 Sonnet相媲美,甚至在某些任务上超越了DeepSeek R1和GPT-4.5。
-
数学推理能力
:数学推理能力大幅提升,能够解决一些复杂的数学问题,甚至包括一些原本只有推理模型才能处理的问题,如“4升水壶问题”。
开源与灵活性
-
开源协议
:采用MIT开源协议,相比上一版本的自定义许可证更加开放。用户可以自由修改、分发模型,还支持模型蒸馏和商业化应用。
-
模型文件
:模型文件总计641GB,主要以
.safetensors
格式存在,便于用户下载和使用。
运行效率与设备兼容性
-
量化技术
:通过4-bit量化技术,模型的磁盘占用空间减少到352GB,大大降低了存储需求。
-
消费级设备支持
:在苹果M3 Ultra上,通过MLX框架实现了超过20 token/s的运行速度,表明该模型可以在消费级设备上高效运行。
-
体验平台
:除了本地运行,用户还可以通过OpenRouter平台体验DeepSeek-V3-0324。
多语言能力
-
多语言基准测试
:在Aider的多语言基准测试中,DeepSeek-V3-0324取得了55%的成绩,较前代版本显著提升,成为仅次于Sonnet 3.7的非推理类模型第二名。
特定任务表现
-
物理模拟
:在20个小球碰撞测试中,DeepSeek-V3-0324的表现优于上一版本,物理模拟能力有所提升。
-
数学竞赛
:能够顺利解决AIME 2025中的数学题目,显示出较强的数学解题能力。
-
网页生成
:能够根据简短的提示词生成完整的HTML5网页代码,前端开发能力显著增强。
猜想
-
基础架构
:DeepSeek-V3-0324很可能是DeepSeek-R2的基础架构,预计几周后将推出专门的推理增强版。
-
行业影响
:DeepSeek的这种快速迭代和开源策略,可能会对全球AI格局产生深远影响,推动开源模型的发展,缩小中美AI能力差距。
推荐阅读
[1]
盘点一下!大模型Agent“花式玩法”
[2]
一文带了解:含DeepSeek MoE
[3]
2025年的风口!| 万字长文纵观大模型Agent!
[4]2万字长文!一文了解Attention,非常详细!
[5]每周速递44期!大模型最前沿!
欢迎投稿或寻求报道,联系:ainlperbot