专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
安徽商报  ·  安徽夯实江淮粮仓“耕基” ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

AI科技评论  · 公众号  ·  · 2025-03-03 12:00

正文

图片

国内最强AI芯片公司,适配满血版DeepSeek的目标是25Tokens/s。

作者丨包永刚

编辑丨王亚峰

不同于春节假期刚结束时近20家AI芯片公司忙着宣布完成适配DeepSeek蒸馏模型的热闹景象,半个月后宣布完成适配满血版DeepSeek模型的寥寥数家,这也真实反映出了国产AI芯片的真实力。

“只要厂家之前已经支持大模型的训练推理,那么适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说,“我们公司的应用工程师(AE)就可以完成DeepSeek蒸馏模型的适配。”

这足以解释为什么有芯片公司可以用数小时时间就完成DeepSeek蒸馏模型的适配,但对于一直致力于做大芯片的AI芯片公司来说,适配满血版DeepSeek更能体现其价值。

目前,华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版DeepSeek模型的适配。 更多国产AI芯片公司适配满血版大模型进展欢迎添加作者微信BENSONEIT了解。

“即便是现在已经宣布适配满血版DeepSeek的芯片公司,其性能都不太好。” AI芯片资深工程师杰克说,“从技术上判断,此前已经将大模型跑起来的公司,比如燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题, 之前没有部署过大模型的公司适配满血版DeepSeek可能‘遥遥无期’。

那么到底适配DeepSeek蒸馏模型和满血版DeepSeek模型会成为AI芯片公司的分水岭?为什么有人说国内AI芯片公司的人不懂AI?DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市?


1

适配蒸馏版DeepSeek模型只是开胃小菜

上个月芯片公司铺天盖地的适配DeepSeek的新闻里,有公司明确表达了适配的是蒸馏模型,也有公司只说适配了DeepSeek,但 适配蒸馏模型和满血版模型之间存在着巨大的差别。
满血版模型指的是与DeepSeek官网性能一致的V3和R1的全量参数模型,其参数高达671B,一般需要多台高性能GPU服务器并行才能流畅运行推理服务。
蒸馏版DeepSeek模型是利用DeepSeek-R1生成的数据对其他模型进行微调,参数从几B到几十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模型的效果差于满血版,但更易于部署。
“我一度认为适配蒸馏版DeepSeek模型没有太大价值,许多工程师也都更倾向于满血版DeepSeek,但我现在的想法发生了转变。”有二十多年芯片行业经验的柏林说,“蒸馏版模型能满足普通用户的聊天需求,对于普及AI的意义非常大。”
杰克也表示,虽然蒸馏模型的准确度不如满血版模型,但 蒸馏版模型能让端侧AI的能力上一个台阶, 端侧资源受限,有了DeepSeek的蒸馏模型之后,比如原来只能部署7B模型的场景,现在能达到14B模型的效果。
国产AI芯片适配蒸馏版DeepSeek模型也难度不大。
无论是使用GPGPU架构还是专用ASIC架构对AI芯片公司,都迅速完成了对DeepSeek的适配。“GPT火了之后所有公司都想办法支持大模型,DeepSeek和之前的大模型没有本质的不同,有此前适配大模型的工作,适配蒸馏版DeepSeek不是难题。”梓豪表示。
“CUDA兼容的GPGPU适配起来确实会更容易,但只要给ASIC更多时间做到极致,性能可以超过GPU。”杰克认为。
从长期看, 无论什么架构的芯片,如果只是支持几个有限的模型,总能在这个架构上找到最优的解决方案。 DeepSeek的火爆,主流模型就是DeepSeek和Llama等少数几个,从这个角度看,对AI芯片公司来说算是好事。
对于采用国产AI芯片的智算中心来说,DeepSeek的火爆同样是重大利好。
“DeepSeek火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说,“但 现实的问题是,如果适配DeepSeek A100的性能是100分,这家国产卡跑起来只有几分的性能 ,使劲优化也只有A100十几分的性能。”DeepSeek的火爆到底如何影响智算中心发展, 添加作者微信BENSONEIT互通有无
既然从普及AI和适配的角度,蒸馏版DeepSeek就有巨大的价值,那为什么还要适配满血版DeepSeek?
只有部署了满血版DeepSeek模型,才能得到蒸馏版模型, 我认为这是部署满血版DeepSeek模型的重要原因。”杰克表示。

2

国内领先AI芯片最快月底能适配「好」满血版模型
但是想要部署参数高达671B满血版DeepSeek-R1模型,即便是Int8精度模型的大小也高达671G,以单卡96G HBM计算,单机8卡总共768GB也只是勉强够部署满血版DeepSeek, 只要模型精度比Int8更高,单台服务器就无法部署满血版DeepSeek模型。
此时就需要多机互联,这正是国产AI芯片公司仍未很好解决的问题。
“Nvidia有NV Link,国产芯片没有多机互联的解决方案会选择InfiniBand(IB)或者高速以太网RoCE实现互联,这些方案的通信的延迟很大,这就极大程度会影响最终部署的效果。”杰克说,“ 多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点, 如果之前没有解决通信问题,想做起来很难,距离成功适配满血版DeepSeek可能遥遥无期。”
梓豪认为在多机互联方面,摩尔线程和沐曦有一定的优势。
另一个难点是DeepSeek的MoE混合专家系统, MoE是多一个router(路由模块)的计算,它会将token路由至合适的专家权重去做计算,这个路由是动态的,这和此前的Transformer大模型的部署不一样,这也是一个全新的挑战。
对于 所有国产AI大芯片而言,还有一个硬伤就是不原生支持FP8数据类型, DeepSeek模型采用了 FP8 混合精度训练,全球领先的AI芯片公司英伟达从H100开始,AMD MI325X都原生支持FP8。
“不原生支持FP8不意味着就不能部署满血版DeepSeek,只是会带来效率问题,比如用FP16来部署,就需要2倍的存储。”杰克表示,这就意味着需要更多卡,问题又到了多卡多机互联。
要注意, 即便是2024年推出的新一代国产AI卡,也没有支持FP8。
柏林认为,最新的国产AI芯片不支持FP8、FP4这类非IEEE定义的数据类型,说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达2022年推出的H100就已经支持了FP8,已经有人做出产品, 就算照着“抄”也不难了,这体现了国内许多做AI芯片的人并不懂AI。
即便解决了技术难题可以部署满血版DeepSeek,从可用到好用还有一段很长的距离。杰克就深有感触,此前适配大模型的时候,杰克所在的公司跨机通信也解决了,但是要实现性能的提升难度很大。
这也是目前国产芯片公司适配满血版头疼的问题。
雷峰网了解到,目前国内领先的AI芯片公司以4台服务器(32卡,FP16数据类型),或者2台服务器(16卡,Int8数据类型) 适配满血版DeepSeek的效果也只达到了10tokens/s,其目标是在二月底前能够达到25tokens/s, 性能大概是英伟达H100的25%。
另有消息称,国内上市AI芯片公司在智算中心已经达到了适配满血版DeepSeek 25tokens/s的性能。
从用户的角度, 使用满血版DeepSeek要有比较好的使用体验有两个非常直观的指标, 一个是首字延迟,另一个就是每秒吞吐量。大致而言,首字延迟在1-1.4秒是大部分用户能够接受的延迟,而每秒生成20token能满足正常阅读的需求。






请到「今天看啥」查看全文


推荐文章
安徽商报  ·  安徽夯实江淮粮仓“耕基”
3 天前
转化医学网  ·  患了癌症就该绝望吗?NO!
7 年前
生意社  ·  玻璃上涨行情面临终结
7 年前