今天分享的是
算力专题系列
深度研究报告:《
算力专题:“九州”算力互联网(MATRIXES)目标架构白皮书
》
(报告出品方:
中国移动
)
报告共计:
44
页
前言
数字经济时代,算力是关键新质生产力,算力网是促进全国范围内各类算力大规模调度运营的数字基础设施。政府工作报告提出,适度超前建设数字基础设施,构建全国一体化算力网,是应对新一轮科技革命和产业变革的战略举措,是推动区域协调发展、推进数据要素流通的关键一步。构建联网调度、普惠易用、绿色安全的算力互联网,助力网络强国、数字中国建设,打造中国式现代化的数字基座。
本白皮书旨在提出中国移动对于“九州”算力互联网(MATRIXES)目标网架构规划、关键技术、业务场景和产业生态构建。希望能够为产业在规划设计算力互联网相关技术、产品和解决方案时提供参考和指引。
本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标路线和过程,敏感领域资源、数据,关键技术诀窍、参数和工艺信息。本自皮书的版权归中国移动所有,未经授权任何单位或个人不得复制或拷贝本建议之部分或全部内容。
业务驱动
国家产业数字化快速发展,其应用深入到各个行业和领域,逐步改变着我们的生活和工作方式。算力时代,通信及网络重要性在不断提升,日新月异的数字化、智能化应用也对 IP 网络持续演进提出了新的要求:云终端、沉浸式体验,需要大带宽低时延的网络:云终端将云网能力与智能终端深度融合,典型应用包括云手机、云电脑等。高品质云终端业务需要保障清晰的画质与音效、流畅的互动操作,以云手机为例,操作流程端到端时延需满足小于 160 毫秒才能实现与传统手机无差别体验,其中传输网络部分时延要求 50 毫秒左右。XR 沉浸式体验依赖大容量、稳定、低时延的通信网络。根据中国信息通信研究院在《虚拟(增强)现实白皮书》中研究显示,20毫秒是云端渲染下保障用户不头晕的基础要求。支持 XR 业务未来的发展,需要具备千兆级网络带宽和5 毫秒级网络时延的能力,这对现有IP 网络提出了新的挑战。
算力服务大数据搬运,需要弹性高吞吐网络:数据是算力服务的核心要素之一,大数据传输的时效性便捷性、经济性在很大程度上直接决定了算力效率。用户上传海量训练数据(TB~PB 量级)至算力中心参与模型训练,流量特点为随A1训练的任务式突发海量数据上传,需要传输网络提供弹性带宽、高吞吐能力。目前,远程大规模的数据搬运主要采用离线“硬盘+快递”,存在时效性差、效率低等缺点。大量企业客户亟需运营商提供高效价优的“线上数据搬运”业务,通过按需弹性多链路负载分担和流量智能调度能力,实现网络转发吞吐量的全面提升,具备任务式海量数据传输能力,提升智算数据的传输效率。
A1 智算分布式训练,需要智能调度的网络:为了提高智算资源的使用效率,业界正在探索将分布在多个智算中心的训练算力协同起来,进行跨DC的大模型分布式训练,典型应用场景包括:(1)削峰填谷,实现算力网络资源最佳配置,减排降耗;(2)大模型联合训练,多区域协同创新;(3)充分聚合社会的各类型算力资源,使算力真正像水电一样“一点接入、即取即用”。分布式训练过程中网络需要承载不同训练节点间的参数面数据,参数面数据传输质量要求严格,训练性能受时延、丢包影响较大,对网络时延、丢包、带宽要求敏感。不同的协同模式均要求网络提供智能化调度以实现广域高通量转发,同时在时效性、突发带宽等方面也存在差异化要求。
视联网、数联网业务,需要高安全可靠的网络:视联网业务包括了交互类视频通讯应用以及远程监控类视频应用。以云视讯为例,其架构通常包括省级云视频平台+地市级CoudMCU+多种类型的终端接入,要求保障终端到云端传输的视频流或者视频文件端到端安全传输,防止企业敏感隐私数据泄露。数据已成为国家的战略性资源,数据推动不同产业的融合与创新。我国高度重视数据相关工作,大力发展以数据为关键要素的数字经济。信通院数据显示,2021年我国数据要素市场规模达704 亿元,“十三五”复合增速超过30%,“十四五”期间将突破 1749 亿元。数联网(Data Switching Service Network,DSSN)是连接多个数据提供方、数据需求方、数据交易提供方等主体的数据要素流通服务网络。数联网需要在保证数据安全合规使用的前提下,为数据商品流通提供“數据物流”服务,同时满足一站式申请、开通数据流通专属算力网络功能,通过算网感知和编排调度能力,动态调配和规划数算网资源,并对网络带宽、时延、Qo5、隔离性等重要属性提供保障,确保数据流通的可靠性。
报告共计:44页