在 DeepSeek 轰炸 2025 春节之前,昇腾几乎就已经是中国市场最成功的“玩家”之一,而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思(含昇腾系列)以 24.8% 的份额位居国内 AI 芯片市场首位,领先第二名至少 10%,但从 2024 年之后,网络上就不再有可参考的具体数据了。
从 InfoQ 近期沟通的多位业内人士的意见来看,业界对昇腾的信心,并没有随着数据图表的消失而变弱,反而越来越强。究其根源,在于昇腾的技术能力。
GPU 的制造有五大部分关键技术:制程工艺、指令集设计、计算单元设计、内存和缓存设计,以及对应的软件栈设计。除了代工由其他公司完成,从指令集到软件栈,华为完成了全栈自研。其中 CANN 软件栈,对标英伟达的 CUDA,综合下来,使得单卡算力逼近英伟达 A100 。
更大的启发在于,DeepSeek 绕过 CUDA 后,实现了惊人的性能提升,比如用 PTX 语言实现的硬件效率,比 Meta 等其他公司高出 10 倍,能够在五天内完成其他模型需十天才能实现的训练。
昇腾全栈自研,想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。
可以说,国内的 AI 算力市场,留给其他玩家的空间并不大,DeepSeek 的爆发,是非常难得的搅局机会。但很可惜,这一次,昇腾似乎又跑在了国产芯片的最前方。
以前人们只知道 DeepSeek,最近大家才知道,有个东西叫做“满血版”的 DeepSeek。
“满血版”,是大家认知中的 DeepSeek:参数规模 671B,支持 200k tokens 超长上下文理解,性能媲美 OpenAI o1。
而对应的是所谓的蒸馏版,如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本,参数量仅为 DeepSeek-R1 的 1%-5%,使用体验也大幅退步。
功能上的阉割相对更加严重,DeepSeek 提供良好体验的前提是,同时勾选深度思考和联网搜索,但在一些厂商工具集成的入口上,又变成了“二选一”:想体验推理能力,就不能联网搜索,效果大打折扣。
这背后的关键在于,部署 DeepSeek-R1 还是相当耗费硬件资源的,比如使用 BF16 权重进行 DeepSeek-R1 的推理
,硬件成本至少在 50-170 万之间。
资源有限,但想蹭热点,心态可以理解,不过上线一个“空壳”版本给用户,多少有点敷衍。
对于昇腾而言,这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商,有业内人士透露,昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。
有接近华为的人士透露,昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化,比如:通信效率。
以 OpenAI 为代表的模型厂商走的是“大专家”路线,专家数量以 16 个为主,单个专家的参数量较大;而 DeepSeek 走的是“小专家”路线,单个专家的参数量较小,但专家数量超过 256 个。更多的专家数量,意味着更高的通信开销,如果通信效率不能得到优化,推理速度就会受到限制。
昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法,顾名思义,是对专家并行(Expert Parallel,EP)算法的模拟和简化,可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式:
-
专家并行(EP):将模型中的不同专家(Expert)分配到不同的计算设备上,每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担,提高训练效率。
-
数据并行(DP):将数据集分割成多个子集,并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力,加速模型训练。
-
张量并行(TP):将模型中的张量(多维数组或矩阵)按照特定维度分割,并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求,提高模型的可扩展性。
昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。
此外,昇腾对 DualPipe、跨节点 All2All ,尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配,借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。
事实上,通信优化是适配 DeepSeek 相当关键的技术命题,而这一直都是华为擅长的内容。
比如 2024 年 9 月发布的昇腾超节点技术,通过机柜级大带宽通信设计,将 NPU 节点从单机 8 卡拓展到机柜几十卡以上,中间采用了大量的自研通信协议,如:HCCS(High-Performance Computing and Communication System)、NB2.0、NHR 等。
昇腾官方口径数据称,昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上,可实现 2250 节点(等效于 18000 张卡)超大规模无收敛集群组网。
这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商,并直接促成了华为和三大运营商、科大讯飞等企业的合作。
事实上,华为的这种技术优势,以及对 DeepSeek 的深度优化能力,正在成为其撬动行业资源,形成统一阵地的跳板。
春节前,昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示,硅基流动是 DeepSeek-R1 发布后,主动找到昇腾,提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快,以至于集结了昇腾、硅基流动、幻方三方的座谈会,以及基于昇腾的性能调优版本的上线,全部发生于大年初一前。
到了 2 月 12 日,又有消息称,小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习,并与任正非进行交流。
至少在公开报道中,这样的闭门会已经很久没发生过了,简直不像是华为的风格。
或许,DeepSeek-R1 的诞生,已经触发了中国 AI 产业发展的一个隐藏的“开关”,围绕华为昇腾结成的“虚拟产业联盟”,正在进一步加深交流和合作。
大量的 DeepSeek 一体机,于近期密集发布,发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,全部基于昇腾产品构建。DeepSeek 一体机,几乎成了产业合作的一个象征和徽记。
另有数据显示,目前各行业已有80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型,并在对外提供服务,此外还有 20+ 企业在适配测试中,预计未来两周内全部完成上线,总体来说,国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。
相较于进口 GPU 方案,昇腾芯片的本地化服务和团队,对部署DeepSeek的效果影响显著。以万卡规模的数据中心为例,MindSpore 工具链的自动并行功能,使分布式训练代码量减少 70%。有
某智慧城市项目的实践表明,采用昇腾方案后,AI 推理模块的 TCO(总拥有成本)三年期下降 42%。
要知道,当下国内模型预训练的需求仍在增加,Claude 4 马上就要发布,GPT-5 预计年内发布,基础模型的技术探索和市场格局,还未迎来终局。
这么来看, DeepSeek 取得的成绩,只是一个阶段性的胜利。而作为产业链的上游,昇腾担负的风险却在减少,着实赢了个彻底。