如何下载资料?
微信扫下方二维码加入星球平台
【老会员续费特惠】
今天分享的是:大模型专题:驱动未来:面向大模型的智算网络
报告共计:10页
《大模型专题:驱动未来:面向大模型的智算网络》探讨了AI大模型与数据中心网络的发展历程、大模型算力对网络的需求、当前网络实现以及未来演进方向等内容。
1. 发展历程
- 大模型:从参数规模千亿到万亿,从单模态到多模态发展。
- 数据中心网络:经历标准数据中心网络、超大数据中心网络,到大模型智算中心网络,规模和驱动因素不断变化。
2. 算力对网络的需求
- 大模型训练:需要多节点、大带宽、低长尾时延的网络。训练中通信耗时占比高,长尾时延会造成网络带宽衰减。
3. 当前网络实现
- Scale - out网络:GPU服务器之间运行PP/DP策略时,基于PCIe网卡和GPU direct RDMA同步数据;GPU服务器内GPU卡之间运行MP/TP时同步计算结果。
- Scale - Up互连:GPU芯片直出,用于待训练数据和Checkpoint数据传输。
4. 未来演进方向
- 推理和领域模型应用兴起:推理应用和领域模型应用规模将超越大模型训练,对算力成本和运营成本有诉求,决定模型能否落地部署。
- 网络需求:异构算力按需分配,数据高效互通。
- 网络演进方案
- 网络融合:Scale out网络与Front - end网络融合,实现超大规模、超大带宽、低时延、高可靠。
- 高性能协议:采用如RDMA等高性能协议支持数据高效传输。
- 下一代智算网络方案:技术分层构建,包括芯片层、传输协议层、虚拟网络层、物理网卡层和物理网络层,实现算力高效流转。
以下为报告节选内容