微信到底需要多少算力？

Dots机构投资者社区 · 公众号 · · 2025-02-17 08:15

正文

中午群里热烈讨论微信+DS到底需要多少算力的问题，专门邀请了zartbot老师写了分析文章，重点摘一下：

其实很多时候成本估算的分歧, 本质是大家各自优化技术上的差距。例如尤洋老师估计的数据, 和DeepSeek-V3的论文实现的PD分离+EP并行性能差距超过10倍。本质上的成本差异是 TP/PP并行的简单结果，与完整EP并行、MTP等优化花活全上，中间的差距非常巨大 。比如Google Gemini 2.0 Flash的极低价格水平来看, 大家技术上还有很多优化空间。

DeepSeek-V3/R1模型的算力需求是相对较小的, 推理瓶颈主要是在 访存、 All2All通信、如何解决专家负载均衡

例如华为昇腾提到的:“通过EP混合并行算法, 通信优化性能提升30%+, 访存性能提升20%+, 从而降低专家不均衡度, 推理吞吐性能提升20%~35%” 另一方面从袁进辉老师的一段话可以知道, 梁总为啥要推荐性能最好需要80台, 主要是通过EP并行获得更好的Data Locality 。而单机/双机/四机的PP/TP并行则很难获得这样的Data Locality的优势, 这也就是为什么梁总建议40台或者80台做更大规模EP并行的原因。

另一方面我们还需要考虑到DeepSeek-V3/R1对MTP的支持（ Multi-Token Prediction，多token预测）, 例如Sglang最近实现MTP后, 性能几乎又翻倍了。

考虑到一些额外的开销, 假设按照单卡性能下限2000TPS计算, 单机8卡就是16000TPS。按照每个用户20TPS的速率, 大概单台H20可以承担800个用户, 考虑PD分离中的Prefill节点的另一些开销 , 估计单台 8 卡H20做到600个用户技术上是可行的。

那么紧接着针对微信10亿DAU, 早上7~10点基本上是各种资讯类信息的公众号消息推送, 下午大多是一些广告/电商, 晚上内容还会更丰富, 基本上一天内都可以维持在一个相对较高的水平。按照单用户微信使用时长60分钟来估计, 大概 并发活跃用户数以4000万 估计, 按照单台800个用户, 大概需要5万台也就是说 40万卡 . 但实际上如果进一步放宽到10Tokens/s和考虑到一些泊松到达和用户使用频率的情况, 大概10万卡~20万卡即可 , 也就是共识粉碎机提到的：我们在之前就已经从供应链看到了腾讯加单了10-20万张H20，现在看微信版Deepseek就是明确的用途。

此外，群里今天刚刚有幸拉进了章明星老师，DS后他有个判断： “推理框架很有可能就此走向两种极致分化” 。私有化部署和平台部署将会带来推理生态的分叉。

在 双机部署 或者未来大内存的 单机部署 下, 可能更多的是考虑片上网络如何高效的互联，例如GB200 NVL4这样的单机推理平台。或者像Apple M4那样的Unified Memory、 Project Digits那样的GB10、这些单U的服务器或许也逐渐会成为云服务提供商的主力机型。

微信到底需要多少算力？

正文

请到「今天看啥」查看全文