继2月1日硅基流动与华为云团队宣布上线DeepSeek-R1/V3推理服务后,2月5日,华为宣布DeepSeek-R1/V3/V2/Janus-Pro上线昇腾社区。
2月4日,国产GPU摩尔线程也宣布实现对DeepSeek蒸馏模型的推理服务部署,宣布即将开放自主设计的夸娥(KUAE)GPU智算集群,全面支持DeepSeek-V3/R1模型及新一代蒸馏模型的分布式部署。
2月4日和5日,海光信息技术团队先后宣布,成功完成DeepSeek-V3/R1模型,以及DeepSeek-Janus-Pro多模态大模型与海光DCU(深度计算单元)的适配优化,并正式上线。
海光信息相关人士告诉《IT时报》记者,DCU采用了GPGPU通用加速计算架构,和DeepSeek训练所用的英伟达卡同架构,支持从FP8、FP16、FP32到FP64的全精度,因此DeepSeek模型可直接在DCU上运行,不需要做大量适配工作,“数值模拟、训练和推理均可适配,是全能型选手,目前技术团队的主要工作是进行精度验证和持续的性能优化,主要看模型跑的结果对不对。”
据其透露,针对开源的DeepSeek模型训练,DCU与同级NV卡性能相当,推理层面,海光DCU正结合架构特性进行深度优化,后续会结合推理框架进一步提高推理性能。
“用户可以通过我们的平台调用,显卡用户甚至可以尝试部署在自己的卡上,因为蒸馏后的推理方案对算力和存储要求没那么高,可以根据不同参数选择。”另一位国产芯片行业人士说道。
DeepSeek模型有满血版和蒸馏版之分,满血版是与DeepSeek官网性能一致的V3和R1的全量参数模型,蒸馏版能将大规模模型的能力迁移至更小、更高效的版本,在国产GPU上实现高性能推理。
DeepSeek团队在公布V3大模型的技术报告时,将FP8训练作为一个主要特性,展示了FP8训练带来的计算和传输优势,
一下子点燃了行业使用低精度计算GPU硬件进行大模型预训练的热情
。
从最初的FP32到目前主流的FP16、BF16,再到如今的FP8,DeepSeek之所以能震动全球AI圈,让国外高端GPU厂商打寒战,其中一个原因是大大降低了预训练对GPU精度的要求。
随着DeepSeek爆火,采用FP8训练会逐渐成为大模型训练的一个重要方向。
在摩尔线程看来,相较于主流的FP16和BF16,FP8在大模型训练和推理中展现出显著优势。首先,FP8格式在相同硬件加速平台上的峰值性能超越FP16和BF16,理论估计可带来两倍性能提升,而且功耗更低。其次,FP8的数值位数比FP16和BF16更少,可以有效降低内存占用消耗。最后,传输数据量减半,从而显著降低通信开销。摩尔线程表示,其GPU产品与夸娥万卡AI算力集群都已支持FP8。
以往,由于FP8的精度较低,在预训练过程中可能导致计算误差累积,从而影响模型收敛性和最终性能,因此大多数大模型更喜欢选择精度和效率相对平衡的FP16,或者FP16和FP32的混合精度训练。
而DeepSeek将算法、硬件和工程的紧密协同做
了大幅创新,从而在预训练中精准应用了FP8,使其和FP16和BF16一起成为标配。
DeepSeek降低了模型预训练的门槛,让国产算力迎来希望年。《IT时报》记者获得的一份资料显示,在单卡算力(FP16稠密)上,国产芯片和英伟达H800仍相差较远,比如H800单卡支持990TFLOPS,而国产芯片中,单卡最高也只支持到376TFLOPS,
但如果训练精度降低到FP8或者INT8,国产芯片的算力将大幅提升
。
在此后的推理阶段,DeepSeek将更利好国产算力芯片,甚至可以完全实现AI推理国产化。