专栏名称: 人工智能学派
人工智能学派专注于分享:GPT、AIGC、AI大模型、AI算力、机器人、虚拟人、元宇宙等AI+160个细分行业!
目录
相关文章推荐
独角兽智库  ·  油气开采及服务板块领涨深度投资报告 ·  2 天前  
独角兽智库  ·  某外资解读今日大跌 ·  2 天前  
创伙伴  ·  1.77万亿,最大奶茶IPO来了 ·  昨天  
空空道人早盘必读  ·  先持仓观望 再做决定 ·  2 天前  
空空道人早盘必读  ·  先持仓观望 再做决定 ·  2 天前  
睢宁融媒  ·  最新!他登顶中国首富 ·  3 天前  
51好读  ›  专栏  ›  人工智能学派

AI专题:AI 时代的网络:需求从何而来,创新将走向何方?(附下载)

人工智能学派  · 公众号  ·  · 2024-05-21 15:49

正文

今天分享的是 AI专题系列 深度研究报告:《 AI专题:AI 时代的网络:需求从何而来,创新将走向何方?

(报告出品方: 国盛证券

报告共计: 34

网络是 AI 大模型时代的美键一环。大模型时代,我们已经开始看到光模块,交换机等网络设备选代加速,需求爆发。但市场对于为何显卡需要搭配大量光模块,以及通信为何成为大模型痛点体会较浅。本文中,我们将从原理出发,探讨网络为何成为AI时代的全新“C位”,并将从最新的产业变化中,讨论未来网络侧的创新与背后的投资机会。

网络需求从何而来?进入大模型时代,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了AI时代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更多的用于同步显卡间的模型参数,对于网络的密度,客量都提出了更高要求,日道庞大的模型体积:(1)训练耗时=训练数据规模x模型参数量/计算速率(2)计算速率=单设备计算速率x设喜数x多设备并行效率。当下,业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能缩短训练耗时,而单设备计算速率的更新有其周期和限制,因此如何利用网悠尽可能的扩大“设备数”和“并行效率”直接决定了算力。

多卡同步的复杂沟道:在大模型训练过程中,将模型切分至单卡后,每经过一次计算,单卡之间都需要进行对齐(Reduce、Gather等),同时,在美伟达的通信原语体系 NCCL中,Al-to-All(即所有节点都可以互相获取值并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。愈发昂青的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中断,需委回到儿小时或者几天前的断点进行重新训练。而整个网络中某一个软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代表着落后的选度和愈发高昂的成本,现代的AI网络,巴经渐渐发展成塔比飞机、航母等的人类系统工程能力的结晶。

网络创新将走向啊方?硬件随需求而动,经过两年,全球算力投资规模已经膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。通信介质的更遗:光、钢与硅是人类传输的三大介质,在AI时代,光模块追求更高速率的同时,也迈出了LPO,LRO,硅光等降本之路。在当前时间点,铜缆凭借性价比,故障率等因素占领了机柜内连接,而Chiplet,Wafer-scaling等新半导体技术,则正在加速探索硅基互联的上限。

网络协说的意争:片间通信协议与显卡强绑定,如英伟达的NV-LINK,AMD的 Infinity Fabric 等等,其决定了单台服务器或者单个算力节点的能力上限,是非常残酷的巨头战场,而【8与以太网的斗争则是节点间通信的主旋律。网鳍架构的变化:当下节点间网络架柏普遍采用叶脊架构,叶具有便捷简单、稳定等特点。但随着单个集群节点数增多,叶稍显冗余的架构会给超大集群带来较大的网络成本,当下,如Dragonfly 架构,rail-only 架构等新架粕有望成为面向下一代超大集群的演近方向。

从云计算时代迈向 AI 时代,为什么通信愈发重要

上一轮通信的辉煌,可以进潮到互联网时代,爆发式的网络流量传输需求,让人类第一次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模决与交换机更多的随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速率,技术的更选也较为按部就班,进入了周期波动向上稳态发展期。

小模型时代,业界更加专注于算法创新,往往些个模型体积可以由单卡、单台服务器或者较为简单的小集群来承担,因此来自 AI侧的网络连接需求并不突出。但大模型的出现改变了一切,OpenAI证明了在当下,用较为简单的Tansfommer 算法,通过堆砌参数的形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发屁期。

我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代,算力规模或者说算力硬件产业链会率先受益。

(1)训练耗时=训练敷据规模x模型参数量/计算速率(2)计算速率=单设备计算速率x设备数x多设备并行效率

在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大,在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时问是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。

在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设备并行效率也成为两个同样重要的一环,这也是英伟达前瞻性收购 Mellanox的原因,是希望在计算速率的每一个决定因子中,都能取得领先。

我们在前期报告 &AI算力的 ASIC之路-从以太坊矿机说起》中详细阐述了单卡算力的多种路线,本文中不在替述,而我们看到的后两项,设备数与多设备并行效率,并不是简单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并行计算的优化程度要求呈现指数级增加,这也是为何网络成为 AI 重要瓶颈之一的终极原因。我们在本节中会从训练原理出发,阐述为何设备的堆和并行销量的提升,是人类历史上最复杂的系统工程。







请到「今天看啥」查看全文


推荐文章
独角兽智库  ·  油气开采及服务板块领涨深度投资报告
2 天前
独角兽智库  ·  某外资解读今日大跌
2 天前
创伙伴  ·  1.77万亿,最大奶茶IPO来了
昨天
空空道人早盘必读  ·  先持仓观望 再做决定
2 天前
空空道人早盘必读  ·  先持仓观望 再做决定
2 天前
睢宁融媒  ·  最新!他登顶中国首富
3 天前
二更食堂  ·  好男人都是这样宠老婆的
7 年前