专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
黄建同学  ·  如何扩展你的模型(How to Scale ... ·  10 小时前  
AIGC开放社区  ·  GPU效率暴涨!DeepSeek开源Deep ... ·  18 小时前  
AIGC开放社区  ·  GPU效率暴涨!DeepSeek开源Deep ... ·  18 小时前  
爱可可-爱生活  ·  本文提出了一个统一的压缩 缩放率 ... ·  22 小时前  
爱可可-爱生活  ·  DReSD:用稠密检索提升推测性解码效率 ... ·  昨天  
爱可可-爱生活  ·  【Claude 3.7 ... ·  昨天  
51好读  ›  专栏  ›  新智元

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

新智元  · 公众号  · AI  · 2025-02-26 16:58

正文



新智元报道

编辑:好困 犀牛
【新智元导读】 最近,英 伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。 同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花?

答案是:推理性能暴涨25倍,成本狂降20倍!

随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200实现了高达21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。

与此同时,每token的成本也实现了20倍的降低。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8模型性能的99.8%。

DeepSeek-R1首次基于Blackwell GPU优化

目前,英伟达基于FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后训练量化

模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文件,并为给定的提示生成文本响应,请参照以下示例代码:

硬件要求 需要支持TensorRT-LLM的英伟达GPU(如B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。

性能优化 代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

from tensorrt_llm import SamplingParamsfrom tensorrt_llm._torch import LLM
def main():
prompts = [ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is", ] sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
# Print the outputs. for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

# The entry point of the program need to be protected for spawning processes.if __name__ == '__main__': main()

对于此次优化的成果,网友表示惊叹。

「FP4魔法让AI未来依然敏锐!」网友Isha评论道。

网友algorusty则声称,有了这次的优化后,美国供应商能够以每百万token 0.25美元的价格提供R1。







请到「今天看啥」查看全文