价格还有下探空间//@老师木:DeepSeek 每台机器输出吞吐-20250301152448_黄建同学的专栏文章_微信文章

价格还有下探空间 // @老师木 :DeepSeek 每台机器输出吞吐15000，利润率500%，看来做MaaS 亏本还是赚钱取决于自身能力

DeepSeek 5天开源周（实际今天第6天也放出来一个"DeepSeek-V3/R1 推理系统概述"）总结：覆盖硬件加速、模型训练、数据处理等，均围绕*降低算力成本*与*提升硬件效率*展开，通过开源代码实现技术普惠。

Day 1：FlashMLA—GPU算力压榨新标杆
- 专为Hopper GPU优化的高效解码内核，动态分配算力资源，解决AI处理变长序列（如长/短文本）时的资源浪费问题。实测显示，翻译、内容生成等任务效率提升显著，成本降低30%。
- 挑战英伟达CUDA生态的封闭性，证明开源工具同样能最大化硬件性能，推动开发者对算力的精细化利用。

Day 2：DeepEP—MoE模型通信效率革命
- 首个针对混合专家模型（MoE）的开源通信库，支持低精度计算（FP8），减少多专家协同训练的延迟与算力消耗，提升训练速度20%。
- 降低分布式训练的硬件门槛，助力中小团队参与大模型研发，加速MoE架构的普及。

Day 3：DeepGEMM—矩阵计算的“省电小能手”
- 通过FP8低精度计算优化矩阵乘法（AI训练核心操作），结合CUDA误差修正技术，兼顾速度与精度，代码仅300行，易部署。
- 简化高性能计算开发流程，推动边缘计算与低功耗芯片（如国产ASIC）的应用场景扩展。

Day 4：DualPipe & EPLB—并行计算的“时间管理大师”
- DualPipe：双向调度流水线任务，解决多任务并行中的等待问题；
- EPLB：动态复制任务至空闲GPU，实现负载均衡，避免资源闲置。
- 提升集群利用率，降低超算中心运营成本，为云计算服务商提供高效解决方案。

Day 5：3FS—数据处理的“极速引擎”
- 分布式文件系统结合SSD与RDMA网络技术，数据读取速度达6.6TB/秒，满足海量训练需求。
- 推动存储与网络技术的协同创新，加速AI大模型训练周期，助力超大规模数据应用落地。

Day 6：V3/R1推理系统—吞吐量与成本的“双杀”
- 通过跨节点边缘计算（EP）驱动的批量扩展计算和通信重叠技术，显著提升吞吐量和降低延迟。具体表现为每个H800节点每秒可处理73.7k输入令牌，输出达14.8k令牌，满足高并发、实时性需求场景（如视频流分析、大规模即时推理）。
- 系统成本利润率高达545%，结合DeepSeek此前开源的训练优化工具链，实现从训练到推理的全链路降本增效。

价格还有下探空间//@老师木:DeepSeek 每台机器输出吞吐-20250301152448

正文

2025-03-01 15:24
本条微博链接

请到「今天看啥」查看全文