在这个科技日新月异的时代,人工智能的每一次进步都足以让我们瞠目结舌。近日,英伟达再次以其强大的技术实力和创新精神,为我们带来了一场震撼的AI盛宴——DeepSeek-R1在Blackwell架构上的首次优化,不仅让推理性能狂飙25倍,更将每token的成本降低了惊人的20倍!这一消息迅速在科技界和AI爱好者中掀起了轩然大波,让我们一同走进这场AI技术的狂欢吧!
英伟达亲自下场,DeepSeek-R1迎来重大突破
在AI领域,英伟达的名字无疑是如雷贯耳。作为全球领先的图形处理器(GPU)制造商,英伟达一直在推动着人工智能技术的发展。而这一次,英伟达更是亲自下场,针对其最新的Blackwell架构,对DeepSeek-R1进行了深度优化,推出了DeepSeek-R1-FP4版本。
在新模型的加持下,B200 GPU的推理吞吐量达到了前所未有的高度——高达21,088 token每秒!这一数字相比于之前的H100 GPU的844 token每秒,实现了高达25倍的提升!这不仅仅是一个数字的变化,更是AI技术的一次质的飞跃。
与此同时,每token的成本也实现了20倍的降低。这意味着,在保持高性能的同时,AI模型的运行成本得到了极大的控制。这对于那些希望将AI技术应用于实际生产环境中的企业和个人来说,无疑是一个巨大的福音。
那么,是什么让DeepSeek-R1在Blackwell架构上实现了如此惊人的性能提升呢?
答案就是FP4——一种全新的浮点格式。
FP4,即4位浮点数,是英伟达为了应对AI模型对计算精度和性能的高要求而推出的一种创新技术。通过将每个参数从传统的8位减少到4位,FP4不仅大大减少了磁盘空间和GPU显存的需求(约1.6倍),还能够在保持高精度的情况下实现更快的计算速度。
当FP4的魔法与Blackwell架构的强大算力相遇时,碰撞出的火花让人惊叹不已。通过应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型在MMLU通用智能基准测试中达到了FP8模型性能的99.8%!这一成果不仅证明了FP4技术的可行性,更展示了英伟达在AI领域的深厚底蕴和创新精神。
DeepSeek开源生态持续繁荣,助力AI技术普及
除了DeepSeek-R1-FP4的推出外,英伟达还一直在积极推动DeepSeek开源生态的繁荣。
在最近的“开源周”活动中,DeepSeek连续开源了多个英伟达GPU优化项目,包括专为英伟达Hopper GPU打造的高效MLA解码内核FlashMLA、专为混合专家系统(MoE)和专家并行(EP)设计的通信库DeepEP以及支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库DeepGEMM等。
这些开源项目的推出,不仅为AI技术的发展提供了更多的选择和可能性,还大大降低了AI技术的门槛。无论是大型企业还是个人开发者,都可以通过这些开源项目快速上手并应用AI技术。这无疑将极大地推动AI技术的普及和应用。