来源:牛逼的 IT
在当今全球科技竞争的格局下,美国对中国 AI 技术的封锁呈现出逐步加剧且多维度的态势。
限制高端商用 AI 芯片对华销售
2023 年 ChatGPT 火爆出圈后,美国开始限制英伟达、英特尔等高端商用 AI 芯片对华销售。英伟达为填补中国市场缺口,按照美国限制要求,专门为中国市场定制出 H20。与此同时,东南亚新加坡兴起了一波英伟达 GPU 的水货市场浪潮。国内大厂、政企央企也不得不搜罗市场上的各类“水卡”,来建立自己的 AI 算力中心。
国产 AI 算力卡公司、互联网大厂因此加速国产 AI 芯片的自研进程。AI 算力芯片的竞争,除了比拼芯片设计领域的人才水平,还在于芯片的生产制造工艺。使用越先进的芯片制造工艺(如 7nm、5nm、3nm 等),就能在单位面积的芯片上堆砌更多晶体管。更多的晶体管数量意味着 AI 芯片拥有更强的浮点运算速度、更优的功耗及算力表现。经过近一年的加班加点研发,就在各家国产 GPU 公司的新一代 AI 芯片即将问世之际,美国再次出手。
通过台积电限制先进工艺代工
美国施压台积电,限制其为中国公司使用 7nm 及以下先进工艺生产 AI 算力芯片。据 2024 年 11 月消息,台积电境外产能暂停部分中国大陆 AI/GPU 客户的 7nm 及以下代工业务,若芯片满足面积在 300mm² 及以上、使用了 HBM 或 CoWoS 工艺、晶体管数大于 300 亿个等条件之一,即受限制。这让中国企业在获取先进制程的 AI 算力芯片时面临更大困难。
台积电的先进工艺在全球芯片制造领域处于领先地位,能在更小芯片面积上集成更多晶体管,提高芯片性能并降低功耗。对于 AI 算力芯片而言,意味着单位时间内可处理更多 AI 算法运算。中国的 AI 芯片企业正处于快速发展和技术追赶阶段,原本希望借助与台积电合作采用先进工艺提升产品竞争力,美国的干预却使其在芯片制造工艺升级上遭遇瓶颈。
限制 HBM 存储颗粒对华销售
HBM 存储颗粒在 AI 大模型训练中至关重要。训练大型 AI 模型,如 OpenAI 的 GPT 系列模型,模型参数和训练数据量极其庞大。HBM 存储颗粒能以极高带宽传输数据,满足模型训练时快速读写数据的要求。美国限制 AI 大模型训练中关键的 HBM 存储颗粒对华销售,就如同限制了 AI 大模型训练的“数据仓库规模”。
2024 年 12 月,美国商务部对中国 140 家半导体设备制造商实施禁售或出口管制,涵盖高带宽 HBM 芯片。HBM 存储颗粒对 AI 大模型训练的数据存储和读取效率影响重大,美国这一禁令阻碍了中国 AI 大模型训练效率,对相关企业的 AI 研发和应用产生一定阻碍。
美国的种种举措,清晰显示出其正逐步加紧对中国 AI 技术的封锁。那么,美国接下来可能有什么行动呢?
AI 时代“以太网络”的重要程度大幅提升
以太网交换机作为 ICT(计算、存储、网络)三大基础设施之一,过去常被视为“最不受重视”的一环。一方面,其采购金额占比低,AI 兴起前仅占 ICT 采购的 5 - 10%。组网架构中,48 台服务器(极限情况下)仅需 1 台 TOR 交换机,这使交换机在客户 CIO 及采购主管心中成为重要但占比低的“小角色”。另一方面,在非 AI 场景中,网络与业务及其他基础设施解耦程度高,无论核心或非核心业务,理论上都能在同一台交换机上运行,导致网络与业务应用部门交集少,交换机如同“跑得快的小透明”。此外,传统业务对网络带宽增长需求小,ICT 性能瓶颈主要在计算、存储等基础设施,交换机端口带宽利用率多低于 30%,网络交换机带宽增长缓慢,多数用户需求停留在 25G TOR 交换机时代,数据中心 TOR 交换机从千兆到万兆、25G 的演进耗时近 20 年。
AI 时代彻底改变了这一局面。AI 服务器为每张 GPU 卡配备独立高速网卡,如英伟达 8 卡机有 8 个网卡,大幅增加了交换机网络端口需求。为缩短大模型训练推理时间,AI 大模型通过高速网络交换机(ROCE 以太网)实现 GPU 间大规模并行计算。大厂竞相扩大 AI 集群 Scale-out 部署规模,从万卡到十万卡,再到百万卡超大集群,交换机采购需求激增,头部大厂一家的 AI 网络采购金额已超过去整个互联网行业需求总和。此外,基于以太网(ROCE)的超级点整机柜方案推出,如英伟达 NV72 超节点整机柜,大幅提高机柜内部 GPU 间 Scale-UP 高速互联,一台整机柜需多台交换机节点,与传统 48 台服务器 : 1 交换机的比例形成鲜明对比。
AI 场景对交换机端口带宽需求也大幅增加。GPU 间频繁进行 All-Reduce 通信及矩阵乘法等高性能计算,对网络带宽和延迟极为敏感。因此,AI 集群需部署更高速网络交换机带宽的基础设施。与数据中心传统场景 TOR 交换机 25G 端口带宽不同,AI 场景下 TOR 交换机起步端口带宽需求为 100G,且随着 GPU 及 AI 算力卡快速迭代,AI 服务器 Scale-out 网卡带宽需求已提升至 400G、800G,未来还将升级至 1.6T 及以上。同时,AI 训练场景下网络优化后带宽利用率可接近 90%,对高端以太网交换机提出更先进的转发要求,如更优的 PFC、ECN 流控技术、包喷洒、DLB、GLB、网络精细可视化等。
AI 业务还增加了对网络联动性的需求。为提高 AI 网络利用效率,业务应用端及其他基础设施需配合网络进行全方位系统优化,如 RDMA 改造及优化、网卡及应用侧端到端流控及升级支持 RDMA 数据包重排序能力、AI 通信库优化等。“在网计算”开启了网络与计算融合的新篇章,借助智能网络芯片能力,将简单但计算密集型任务迁移到网络设备中执行,减轻服务器端计算压力,减少不必要数据传输,提高系统能效比。交换机网络在 AI 解决方案中的话语权大幅提升。
高端网络交换芯片存在潜在风险
随着 AI 技术向大规模集群应用发展,高端网络成为不可或缺的部分。网络交换芯片的性能直接影响 AI 集群的组网规模及效率。目前,国内外顶流的 AI 大模型厂商(谷歌、亚马逊、脸书、特斯拉、阿里、字节、腾讯、百度等)均使用美国博通最新的 TH5 51.2T 的交换芯片进行 AI Scale-OUT 网络互联,并计划通过 TH5 F1 芯片(在 TH5 基础上进一步降低了转发时延、增加了链路层重传、在网计算等能力)实现 Scale-UP 超节点整机柜高速互联方案(如:一个机柜内实现 32 卡到 128 卡的 GPU 高性能集群,可大幅增加 AI 训练及“搜广推”的效率)。
博通即将在 2025 年发布的 TH6 102.4T 顶级高端交换芯片产品,将把 AI 组网规模及集群性能提升到新高度。例如在 Scale-OUT 场景,TH5(51.2T 芯片)交换机可出 128 个 400G 接口,2 层 CLOS 组网可实现单集群 8K GPU 组网;若升级为 TH6 芯片,交换机可出 256 个 400G 接口,2 层 CLOS 组网可实现单集群 32K GPU 组网,规模扩大 4 倍;在 Scale-UP 场景,TH6 也能让整机柜的组网规模或性能提升 2 倍以上。
因此,如果美国继续收紧对中国的 AI 技术封锁,TH6 高端交换芯片很可能成为下一个禁售对象。这对中国正在发展的 AI 大规模集群项目,如一些超大规模数据中心构建的 AI 计算集群,将是巨大挑战。寻找替代品需克服技术兼容性、性能匹配等多方面问题,还可能导致整个 AI 项目建设周期延长和成本大幅增加。
综上所述,AI 时代下,网络(主要指以太网)的重要性日益凸显。从整体 AI 基础设施角度看,AI 算力卡、HBM 存储颗粒、高端交换芯片形成新的“基础三要素”。前两者已被美国限制,仅剩网络。有人认为“网络”相比 AI 算力芯片、HBM 技术简单,但博通因研发 ASIC 架构的 AI 算力芯片备受关注,而其主业是 ASIC 交换芯片,通过交换芯片积累了大量 ASIC 技术及 IP,才得以“轻松”转向 AI 算力卡业务。反观英伟达,为补齐 AI 基础硬件方案中网络的短板,收购了以色列的麦洛斯网络。由此可见,交换芯片网络技术含量颇高。
不可否认,AI时代下网络的重要承担变得越来越“不可被忽视”,美国也认真寻找下一个可以限制中国AI发展的“命门”,但是我们也要客观看到郁国外博通的差距,虽然在国内大部分行业在国产化政策推动下,大部分行业及场景已经具备了国产化的能力,并完成了绝大部分的网络的国产化,但在互联网头部大厂的AI场景,我们国内企业确实和博通有1-2个代差,但还是那句话,我们必须要有“底线思维”,我们不能等美国制裁我们购买光刻机时,才开始发展国内光刻机,不能等美国禁售GPU后你再发展国内自研AI算力卡,当然也不能等美国真的禁售我们高端网络后,才开始想起国产高端交换网络。
【投稿】:
SDNLAB原创文章奖励计划