专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
51好读  ›  专栏  ›  Dots机构投资者社区

英伟达优化DeepSeek-R1,性价比提升500倍!

Dots机构投资者社区  · 公众号  ·  · 2025-02-28 08:15

正文

图片

重要信息


英伟达宣布,在其Blackwell架构对DeepSeek-R1进行了优化,优化后的模型为DeepSeek-R1-FP4,并开源(首个)。


英伟达在上图中宣布的内容,5G与6G公众号(ID:angmobile)注意到有三大亮点。

①第一大亮点:推理速度与成本优化显著

在新模型DeepSeek-R1-FP4的加持下:英伟达B200推理性能提升了25倍(相比于H100),每token成本降低20倍。由此5G与6G公众号认为意味着可以在更短时间内处理更多任务,同时大幅降低计算成本,使AI应用的大规模部署和发展更具可行性和经济性。

具体如下(基于典型Llama 3模型在1024x1024输入规模测试)。


下图展示了不同英伟达芯片在 DeepSeek - R1 推理吞吐量和每百万 token 成本方面的对比,5G与6G公众号认为直观反映了英伟达通过架构优化和模型适配在 AI 芯片推理性能和成本控制上取得的重大进展。


H100在2025年1月的推理吞吐量为844 Output Tokens/Second,H200在2025年1月提升至1488 Output Tokens/Second,到2月进一步提升到5899 Output Tokens/Second ,而 B200在2025年2月达到了21088 Output Tokens/Second。可以看出,B200芯片的推理吞吐量远高于H100和H200,相比H100提升了约25倍,体现了Blackwell架构(B200 基于此架构)在搭配DeepSeek - R1优化后强大的推理性能提升效果。

图中虚线代表每百万token成本,从趋势来看,随着推理吞吐量的提升,每百万token成本逐渐降低。B200相比H100实现了每token成本降低约20倍的效果,这意味着使用B200进行推理计算时,在处理相同数量的token时,成本大幅下降,对企业和研究机构来说,能显著降低大规模AI推理应用的成本支出。

②第二大亮点:精度与性能平衡出色

开源的DeepSeek - R1 - FP4优化方案,使模型在FP4精度下能在MMLU通用智能基准测试中达到FP8模型性能的99.8%,5G与6G公众号认为说明在降低精度要求的情况下,依然保持了近乎顶级的智能推理和计算能力,实现了精度和性能的良好平衡,为大规模数据处理提供了高效且准确的解决方案。

③第三大亮点:硬件与软件协同优化

利用TensorRT DeepSeek优化,结合了英伟达的加速引擎TensorRT和DeepSeek优化算法,不仅充分发挥了Blackwell架构硬件的运算潜力,5G与6G公众号注意到还通过软件层面的精细调优,从底层提升了系统整体性能,降低了成本,展示了英伟达在硬件与软件协同创新方面的强大实力。


喜欢






请到「今天看啥」查看全文