为被榨干！英伟达下场优化 DeepSeek-R1，B200 性能暴增 25 倍，成本更更低

程序员的那些事 · 公众号 · 程序员 · 2025-02-28 08:14

正文

AI 算力竞争愈发白热化的 2025 年，英伟达在 2 月 25 日投下一枚技术核弹：基于 Blackwell 架构的 DeepSeek-R1-FP4 模型横空出世。

这项突破不仅让推理速度暴增 25 倍，更将成本压缩至传统方案的 1/20，彻底改写了 AI 部署的经济学规则。

传送门： https://huggingface.co/nvidia/DeepSeek-R1-FP4

传统 AI 模型普遍采用 FP16 或 FP8 精度，而 DeepSeek-R1-FP4 首次将权重和激活值量化至 FP4（4 位浮点） 。

通过英伟达 TensorRT-LLM 的优化，模型在 MMLU 基准测试中实现了 FP8 模型 99.8%的性能，却仅需 1/2 的显存和磁盘空间。

这种“用 4 位精度跑出 8 位效果”的黑科技，本质是通过动态量化策略，在计算关键路径保留高精度，而在非敏感区域极致压缩。

搭载 Blackwell 架构的 B200 GPU，配合 FP4 量化方案，交出了 21,088 token/秒 的恐怖成绩单。对比前代 H100 的 844 token/秒，推理速度提升达 25 倍。

更惊人的是，每 token 成本骤降 20 倍，使得企业部署百亿级大模型的边际成本趋近于零。有开发者测算，基于该技术构建的 API 服务，每百万 token 成本可低至 0.25 美元且仍有利润空间。

上面这张图表，对比了不同 GPU 型号（H100、H200、B200）在 输出令牌速率 和 每百万令牌成本 上的表现：

纵轴：输出令牌速率（Output Tokens）：

B200

（2025 年 2 月）输出速率达 25,000 tokens ，是 H100（1,000 tokens）的 25 倍 ，H200（5,899 tokens）的 4.2 倍 。
时间线显示硬件迭代速度极快：H200 在 2025 年 1 月至 2 月性能提升约 3.5 倍 ，而 B200 在同期直接碾压前代。