在人工智能领域,透明度和知识共享是推动进步的关键。
3月1日,DeepSeek在知乎平台开设了官方账号,并发布一篇技术文章——《
DeepSeek-V3/R1推理系统概览
》。该文章首次向公众深度剖析了其模型推理系统的优化细节,重点阐述了如何通过技术创新显著提升系统吞吐量并有效降低延迟。此外,
文章还首次披露了其理论成本结构和利润率等关键财务信息,为业界提供了宝贵的参考
。
// DeepSeek-V3/R1推理系统的优化策略 //
DeepSeek-V3/R1推理系统的优化目标是实现更大的吞吐量和更低的延迟。为了达成这两个目标,DeepSeek采用了大规模跨节点专家并行(EP)方案。这种方案虽然增加了系统的复杂性,但能有效提升性能。
DeepSeek文章中
详细介绍了如何通过EP技术增长批量大小、隐藏传输耗时以及进行负载均衡,从而优化整个推理系统的性能。通过这些技术手段,DeepSeek能够处理更大规模的数据,同时保持或提高响应速度。
以下是预填充阶段的计算-通信重叠示意图:
解码阶段也采用了类似的策略,但更加精细,将Attention层进一步细分为两步,使用了五阶段流水线 (5-stage pipeline),实现更流畅的通信-计算重叠。
// DeepSeek披露理论成本和利润率 //
DeepSeek还首次披露了其理论成本和利润率的关键信息。
基于GPU租赁成本为2美金/小时的假设,DeepSeek计算出总成本为87,072美金/天。如果按照DeepSeek R1的定价计算所有tokens的收入,理论上一天的总收入可达562,027美金,从而得出成本利润率高达545%
。
通过这种透明的方式,DeepSeek展示了其在成本控制和利润最大化方面的能力,这对于市场参与者来说是一个重要的信号。
// 分析师观点 //
对于DeepSeek的技术创新和商业潜力,
分析师纷纷发表观点。
中金公司研报认为,
DeepSeek推理降本推动了推理需求的增长,短期内大量用户端部署的需求增长会对推理硬件市场增长构成直接拉动,下游应用生态的想象空间也被进一步打开
。
平安证券此前研报认为,DeepSeek通过算法创新提高了算力利用率,在保证模型性能的同时降低了训练成本,冲击了海外科技公司模型训练的“堆算力”模式。短期而言,此次算法创新引发了市场对训练算力需求预期边际放缓的担忧;但
长期而言,在通用人工智能(AGI)愿景的驱动和AI应用的普及下,算力需求长期增长的趋势仍将不变,尤其是推理侧的算力需求空间或进一步拓宽
。
总体来看,DeepSeek-V3/R1推理系统的技术优化和成本利润率分析展示了其在人工智能领域的强大竞争力。
通过大规模跨节点专家并行技术,DeepSeek不仅提升了系统性能,还实现了显著的成本效益
。