专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
目录
相关文章推荐
新周刊  ·  比肉都贵,这款“中产蔬菜”杀疯了? ·  15 小时前  
三联生活周刊  ·  资讯|美国削减高校拨款,科研人才何去何从? ·  昨天  
三联生活周刊  ·  18岁国安小将“脑死亡”:一个北漂家庭戛然而 ... ·  2 天前  
51好读  ›  专栏  ›  AI领域技术栈

DeepSeek全面开源V3/R1推理系统:成本利润率高达545%!

AI领域技术栈  · 公众号  ·  · 2025-03-03 09:55

正文

在这个信息爆炸的时代,每天都有无数的新闻和技术更新在冲击着我们的眼球。但就在昨天,一条关于AI领域的消息,却如同一颗石子投入平静的湖面,激起了层层涟漪。那就是DeepSeek——这个在AI界并不算出名的公司,竟然全面开源了他们的V3/R1推理系统,并且声称成本利润率高达545%!

是的,你没有看错,成本利润率545%。在这个众多AI公司还在烧钱、亏损的泥潭中挣扎的时候,DeepSeek却以一种近乎“逆天”的姿态,向世界展示了他们的技术实力和商业智慧。那么,这究竟是怎么一回事呢?让我们一起揭开DeepSeek的神秘面纱。

图片

DeepSeek的压轴大戏:V3/R1推理系统全面开源

就在大家以为这个开源周已经结束的时候,DeepSeek却给我们带来了一个意外的惊喜。他们宣布全面开源他们的V3/R1推理系统,这无疑是在AI界投下了一颗“重磅炸弹”。
据了解,DeepSeek-V3/R1推理系统的优化目标是提高吞吐量和降低延迟。为了实现这两个目标,DeepSeek团队采用了跨节点专家并行(Expert Parallelism,EP)技术。这种技术不仅显著扩大了批处理规模,提高了GPU矩阵计算效率,从而提升了吞吐量;还将专家模块分布在不同GPU上,每个GPU仅处理少量专家模块(减少内存访问需求),从而降低了延迟。
但值得一提的是,EP技术也带来了系统复杂度的增加。主要体现在两个方面:一是EP引入了跨节点通信,需要设计合理的计算工作流,使通信过程与计算过程能够并行进行;二是EP涉及多个节点,因此必然需要数据并行(Data Parallelism,DP),并要求在不同DP实例之间进行负载均衡。

面对这些挑战,DeepSeek团队并没有退缩。他们通过利用EP技术扩展批处理规模、将通信延迟与计算过程重叠处理、实现有效的负载均衡等方式,成功应对了这些挑战。

术详解: DeepSeek如何实现高效推理?

对于DeepSeek-V3/R1推理系统的技术细节,DeepSeek团队也进行了详细的介绍。
首先,他们采用了预填充-解码解耦架构(prefill-decode disaggregation architecture)。在预填充和解码阶段分别采用不同程度的并行策略:预填充阶段「路由专家EP32,MLA/共享专家DP32」;解码阶段「路由专家EP144,MLA/共享专家DP144」。
其次,为了缓解大规模跨节点EP技术引入的显著通信开销,DeepSeek采用了dual-batch重叠策略。将同一批请求分割为两个microbatch,以隐藏通信成本并提高整体吞吐量。在预填充阶段,两个microbatch交替执行;在解码阶段,则将注意力层细分为两个步骤,并采用五阶段流水线(5-stage pipeline)技术,实现计算与通信的无缝重叠。

最后,为了实现最优负载均衡,DeepSeek团队还在预填充阶段和解码阶段分别设计了负载平衡器。通过平衡各GPU之间的核心注意力计算、均衡每个GPU处理的输入token数量、平衡各GPU之间的KV缓存使用等方式,最大限度地提高了资源利用率。

惊人的数据: DeepSeek在线服务性能曝光

除了技术细节外,DeepSeek还公布了他们的在线服务性能数据。 这些数据无疑进一步证明了DeepSeek-V3/R1推理系统的强大实力。
据悉,所有DeepSeek-V3/R1推理服务均在H800 GPU上运行,精度与训练保持一致。在过去24小时内(02月27日中午12:00至02月28日中午12:00),V3和R1推理服务的合计峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。
在这24小时统计期内,V3和R1共处理了6080亿输入token和1680亿输出token。平均输出速度为每秒20-22个token,每个输出token的平均KV缓存长度为4989个token。每个H800节点在预填充阶段提供平均约7.37万token/秒的输入吞吐量(包括缓存命中),或在解码阶段提供约1.48万token/秒的输出吞吐量。






请到「今天看啥」查看全文