专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  实测 GPT-4.5!全网都在喷的 ... ·  昨天  
小众软件  ·  另外两件事[250228] ·  昨天  
APPSO  ·  DeepSeek 开源周最后一天,重塑 ... ·  昨天  
APPSO  ·  OpenAI 官宣,GPT-4.5 即将发布 ·  2 天前  
小众软件  ·  影响900万用户?VS Code 主题插件 ... ·  2 天前  
51好读  ›  专栏  ›  APPSO

刚刚,DeepSeek 首次披露成本利润率!还有大量技术细节

APPSO  · 公众号  · app  · 2025-03-01 13:48

正文

当人们以为 DeepSeek 开源周已经结束,刚刚 DeepSeek 又掏出了 One More Thing ,首次披露了其模型推理系统的成本利润率:545%,这一惊人数字背后是一系列精心设计的技术优化。

DeepSeek 在保证服务质量的同时,实现了极高的成本效益:

  • 硬件配置:所有服务使用 H800 GPU,保持与训练一致的FP8/BF16精度
  • 动态资源调度:根据白天/夜间负载差异动态调整节点数量,最大化资源利用率
  • 成本数据:24 小时内平均使用 226.75 个节点(每节点8个H800),成本约 $87,072/天
  • 吞吐能力:每台 H800的 prefill 吞吐约 73.7k tokens/s,decode 吞吐约 14.8k tokens/s
  • 利润率:按 DeepSeek R1 定价计算,理论日收入$562,027,成本利润率 545%
DeepSeek-V3/R1 推理系统面临两大挑战:如何提高吞吐量和如何降低延迟。
他们采用了大规模跨节点专家并行(Expert Parallelism/EP)技术。
DeepSeek-V3/R1 采用了MoE(混合专家)架构,每层有 256 个专家,但每个 token 只激活其中 8 个。这种高度稀疏的结构需要通过专家并行来提高效率:
专家并行就像是把不同特长的厨师分散到多个厨房(GPU)中:
1. 提高吞吐量: 就像餐厅一次接待更多顾客(增大batch size)。当厨房里同时处理很多订单时,厨师们可以更高效地工作,不会有空闲时间,炉灶和切菜台都能充分利用。
2. 降低延迟: 每个厨房只需要专注几种特色菜(每个GPU只计算少量专家),厨师不需要来回切换不同菜系,也不用频繁更换工具和食材,做菜速度自然更快。
DeepSeek 针对不同场景采用了不同的并行策略:
  • 准备阶段(Prefill): 类似于餐前准备,需要 4 个分店协作,每个厨房有 9+1 名厨师
  • 出餐阶段(Decode): 类似于快速出餐,需要 18 个分店协作,每个厨房有 2+1名 厨师
为了提高效率 DeepSeek 还采用了双批次重叠处理负载均衡策略
双批次重叠处理:就像厨师一边炒着这桌的菜,一边准备下一桌的食材。当一批订单在烹饪时,另一批订单的食材可以同时在配送中,这样厨房永远不会空闲。
负载均衡策略:
  • 确保每个厨房处理的订单数量和复杂度相近
  • 合理分配热门菜的厨师数量,避免某些特色菜(热门专家)导致部分厨房超负荷
  • 动态调整各分店的顾客分配,使得所有厨师的工作量和食材配送量尽可能平衡
正因为这些技术优化,DeepSeek 即使在硬件受限的情况下,也能实现出色的推理性能。
卡住它的地方,反而变成了它的创新。
附 DeepSeek 官方原文🔗






请到「今天看啥」查看全文