中午群里热烈讨论微信+DS到底需要多少算力的问题,专门邀请了zartbot老师写了分析文章,重点摘一下:
其实很多时候成本估算的分歧, 本质是大家各自优化技术上的差距。例如尤洋老师估计的数据, 和DeepSeek-V3的论文实现的PD分离+EP并行性能差距超过10倍。本质上的成本差异是
TP/PP并行的简单结果,与完整EP并行、MTP等优化花活全上,中间的差距非常巨大
。比如Google Gemini 2.0 Flash的极低价格水平来看, 大家技术上还有很多优化空间。
DeepSeek-V3/R1模型的算力需求是相对较小的, 推理瓶颈主要是在
访存、
All2All通信、如何解决专家负载均衡
例如华为昇腾提到的:“通过EP混合并行算法, 通信优化性能提升30%+, 访存性能提升20%+, 从而降低专家不均衡度, 推理吞吐性能提升20%~35%” 另一方面从袁进辉老师的一段话可以知道,
梁总为啥要推荐性能最好需要80台, 主要是通过EP并行获得更好的Data Locality
。而单机/双机/四机的PP/TP并行则很难获得这样的Data Locality的优势, 这也就是为什么梁总建议40台或者80台做更大规模EP并行的原因。
另一方面我们还需要考虑到DeepSeek-V3/R1对MTP的支持(
Multi-Token Prediction,多token预测
),
例如Sglang最近实现MTP后, 性能几乎又翻倍了。
考虑到一些额外的开销, 假设按照单卡性能下限2000TPS计算, 单机8卡就是16000TPS。 按照每个用户20TPS的速率, 大概单台H20可以承担800个用户, 考虑PD分离中的Prefill节点的另一些开销
, 估计单台 8 卡H20做到600个用户技术上是可行的。
那么紧接着针对微信10亿DAU, 早上7~10点基本上是各种资讯类信息的公众号消息推送, 下午大多是一些广告/电商, 晚上内容还会更丰富, 基本上一天内都可以维持在一个相对较高的水平。按照单用户微信使用时长60分钟来估计, 大概
并发活跃用户数以4000万
估计, 按照单台800个用户, 大概需要5万台也就是说
40万卡
. 但实际上如果进一步放宽到10Tokens/s和考虑到一些泊松到达和用户使用频率的情况,
大概10万卡~20万卡即可
, 也就是共识粉碎机提到的:我们在之前就已经从供应链看到了腾讯加单了10-20万张H20,现在看微信版Deepseek就是明确的用途。
此外,群里今天刚刚有幸拉进了章明星老师,DS后他有个判断:
“推理框架很有可能就此走向两种极致分化”
。
私有化部署和平台部署将会带来推理生态的分叉。
在
双机部署
或者未来大内存的
单机部署
下, 可能更多的是考虑片上网络如何高效的互联,
例如GB200 NVL4这样的单机推理平台。
或者像Apple M4那样的Unified Memory、
Project Digits那样的GB10、
这些单U的服务器或许也逐渐会成为云服务提供商的主力机型。