专栏名称: IT时报
做报纸,也懂互联网,这里是《IT时报》(IT Times)微信版。作为上海一份IT类周报的新媒体产品,这里汇聚了关注全球IT业的魔都资深IT记者。我们追求原创独家新锐,以及读视听多种表达方式。ps. 使用IT产品有问题?留言与编辑互动。
目录
51好读  ›  专栏  ›  IT时报

DeepSeek点燃AI产业圈!全球模型价格战来袭,国产算力有了新希望

IT时报  · 公众号  ·  · 2025-02-06 19:34

正文

深度求索掀起惊涛骇浪

作者/ IT时报记者 孙妍 郝俊慧

编辑/  钱立富

“大家都过了一个DeepSeek年。”春节期间,DeepSeek(深度求索)不仅成为震惊全球AI圈的“鲶鱼”,也为国产芯片商、云厂商等国内AI生态链带来新希望。


短短几天时间,DeepSeek的朋友圈持续扩容。 据《IT时报》记者不完全统计,华为、海光信息、摩尔线程、沐曦、天数智芯、壁仞、昆仑芯等多家国产芯片厂商都官宣适配DeepSeek ,而AMD、英伟达、英特尔等国外主流芯片厂商也已适配。


国内外主流云厂商几乎全员上架DeepSeek模型, 华为云、天翼云、百度智能云、阿里云、腾讯云等10多家国内云服务厂商已经接入DeepSeek模型 ,海外的亚马逊AWS、微软Azure等云巨头也已支持。其中,天翼云实现了全栈自主可控,从昇腾硬件、推理引擎到模型服务,实现技术链路100%国产化,成为国内首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。


无问芯穹、硅基流动等AI基础设施厂商是春节期间当之无愧的“卷王”。无 问芯穹在1月28日除夕就已支持DeepSeek-R1-Distill 32B模型,是最早官宣的一批。据《IT时报》记者了解,目前无问芯穹正在推进DeepSeek在国产芯片上的推理适配。而硅基流动这位“卖铲人”则架起了华为与DeepSeek之间的桥梁。


2月5日,春节后首个交易日,DeepSeek概念股掀起“涨停潮”。华安证券研报显示,看好国产AI算力卡在对国产大模型的支持下实现迭代。

拉低训练门槛

国产芯片新希望

继2月1日硅基流动与华为云团队宣布上线DeepSeek-R1/V3推理服务后,2月5日,华为宣布DeepSeek-R1/V3/V2/Janus-Pro上线昇腾社区。


2月4日,国产GPU摩尔线程也宣布实现对DeepSeek蒸馏模型的推理服务部署,宣布即将开放自主设计的夸娥(KUAE)GPU智算集群,全面支持DeepSeek-V3/R1模型及新一代蒸馏模型的分布式部署。


2月4日和5日,海光信息技术团队先后宣布,成功完成DeepSeek-V3/R1模型,以及DeepSeek-Janus-Pro多模态大模型与海光DCU(深度计算单元)的适配优化,并正式上线。


海光信息相关人士告诉《IT时报》记者,DCU采用了GPGPU通用加速计算架构,和DeepSeek训练所用的英伟达卡同架构,支持从FP8、FP16、FP32到FP64的全精度,因此DeepSeek模型可直接在DCU上运行,不需要做大量适配工作,“数值模拟、训练和推理均可适配,是全能型选手,目前技术团队的主要工作是进行精度验证和持续的性能优化,主要看模型跑的结果对不对。”


据其透露,针对开源的DeepSeek模型训练,DCU与同级NV卡性能相当,推理层面,海光DCU正结合架构特性进行深度优化,后续会结合推理框架进一步提高推理性能。


“用户可以通过我们的平台调用,显卡用户甚至可以尝试部署在自己的卡上,因为蒸馏后的推理方案对算力和存储要求没那么高,可以根据不同参数选择。”另一位国产芯片行业人士说道。


DeepSeek模型有满血版和蒸馏版之分,满血版是与DeepSeek官网性能一致的V3和R1的全量参数模型,蒸馏版能将大规模模型的能力迁移至更小、更高效的版本,在国产GPU上实现高性能推理。


DeepSeek团队在公布V3大模型的技术报告时,将FP8训练作为一个主要特性,展示了FP8训练带来的计算和传输优势, 一下子点燃了行业使用低精度计算GPU硬件进行大模型预训练的热情


从最初的FP32到目前主流的FP16、BF16,再到如今的FP8,DeepSeek之所以能震动全球AI圈,让国外高端GPU厂商打寒战,其中一个原因是大大降低了预训练对GPU精度的要求。


随着DeepSeek爆火,采用FP8训练会逐渐成为大模型训练的一个重要方向。 在摩尔线程看来,相较于主流的FP16和BF16,FP8在大模型训练和推理中展现出显著优势。首先,FP8格式在相同硬件加速平台上的峰值性能超越FP16和BF16,理论估计可带来两倍性能提升,而且功耗更低。其次,FP8的数值位数比FP16和BF16更少,可以有效降低内存占用消耗。最后,传输数据量减半,从而显著降低通信开销。摩尔线程表示,其GPU产品与夸娥万卡AI算力集群都已支持FP8。


以往,由于FP8的精度较低,在预训练过程中可能导致计算误差累积,从而影响模型收敛性和最终性能,因此大多数大模型更喜欢选择精度和效率相对平衡的FP16,或者FP16和FP32的混合精度训练。


而DeepSeek将算法、硬件和工程的紧密协同做 了大幅创新,从而在预训练中精准应用了FP8,使其和FP16和BF16一起成为标配。


DeepSeek降低了模型预训练的门槛,让国产算力迎来希望年。《IT时报》记者获得的一份资料显示,在单卡算力(FP16稠密)上,国产芯片和英伟达H800仍相差较远,比如H800单卡支持990TFLOPS,而国产芯片中,单卡最高也只支持到376TFLOPS, 但如果训练精度降低到FP8或者INT8,国产芯片的算力将大幅提升


在此后的推理阶段,DeepSeek将更利好国产算力芯片,甚至可以完全实现AI推理国产化。

中国模型的低成本优势

万卡集群成新趋势

除了降低预训练门槛,DeepSeek更大大降低了训练成本。


从DeepSeek公布的论文可见,用于训练 V3 模型的集群只有256个服务器节点,每个节点有8个H800 GPU加速器,总共有2048个GPU。相比于Meta的Llama3需要16384块H100训练, V3仅用了不到五分之一的GPU(还是H800 便完成了同样规模任务的训练,总训练成本仅为 557.6 万美元。


此轮DeepSeek不仅以算法创新取胜,在算力层面,万卡集群驱动模型降本,可能成为国产芯片的竞逐焦点。


2月5日,百度智能云宣布点亮昆仑芯三代万卡集群,成为国内首个点亮的自研万卡集群。万卡集群的建成,不仅在一定程度解决自身算力供应的持续性问题,也进一步推动模型降本。


百度解释道,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。


日前,花旗银行发布研报表示, DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用拐点的到来。

除夕夜紧急上线

或掀起新一轮价格战

云厂商全员上架DeepSeek不同版本模型后,可能会掀起新一轮价格战。 DeepSeek官网刊例价显示,R1调用价格为输入4/M Tokens,输出16/M Tokens,V3调用价格为输入2/M Tokens,输出8/M Tokens。

目前,中国电信天翼云、百度智能云、阿里云、无问芯穹等云服务都宣布限时免费:百度限免两周,调用Tokens无上限;阿里云限免1000万Tokens;天翼云“息壤”智算平台推出DeepSeek-R1/V3系列模型的限时免费推理API服务,开发者无须关注底层架构即可快速调用;无问芯穹限免100万Tokens;PPIO派欧云推出初创企业扶持计划,最高补贴10万元,其中DeepSeek 用户加码2万元,赠送百万级Tokens。


华为云与硅基流动平台上,DeepSeek-R1的刊例价与官方一致,V3限时优惠至2月8日,后调整为官方价。


价格战之外,稳定性和可用度将是对云厂商和国产芯片的另一个考验。


一位使用者向记者反映,某平台提供的DeepSeek-R1 671B模型使用体验很差,尤其在逻辑性和记忆持续能力上表现不佳,原因或是虽然模型参数和官方一致,但国产芯片对 FP8 精度的支持可能与英伟达GPU的优化方式不同,导致推理效率或输出质量有所下降。


与此同时,DeepSeek官网服务器繁忙也成为常态,不少用户转向部署DeepSeek的云商和应用程序。


第一波上架DeepSeek的云厂商赶在除夕夜紧急上线,扛住了春节流量小高峰,而下一个流量大高峰将会在开工后出现。


除夕,PPIO派欧云的工程师团队就连夜接入满血版DeepSeek模型,利用PPIO分布式云整合多地算力资源,在春节期间帮多个超级应用扛住了假期流量高峰,比如接入DeepSeek的某Top 3 AI浏览器插件,某用户过亿的健身App等,服务可用度做到了99.9%,远超DeepSeek官网提供的服务稳定度。


PPIO派欧云CEO姚欣对《IT时报》记者说道:“我们会继续在价格和稳定度方面持续优化,帮助更多开发者用上最新最好的开源模型能力。”

排版/ 季嘉颖

图片/ IT时报  豆包AI 百度

来源/《IT时报》公众号vittimes







请到「今天看啥」查看全文