DeepSeek火爆全球,并引发算力行业链式反应。借助混合专家模型(MOE)架构、多头潜在注意力机制(MLA)等算法创新,DeepSeek显著降低大模型计算成本,打破了业界对高算力GPU的路径依赖,全面激活了各行业部署大模型应用的需求。长期受先进制程工艺制约的国产GPU阵营正在迎来新的发展机遇。
2月27日,在北京2025中国RISC-V生态大会上,容芯致远,一家2024年刚成立,致力于创新计算机体系结构的初创企业,推出了全新的AGC智算架构及其整机设计方案,并率先与百度AI技术生态达成合作,这或将开启AI计算机系统架构创新的范式变革。
这是容芯致远首次在全国性顶级行业技术大会上正式亮相,CTO石旭在主题演讲中披露了他对MOE架构下AI计算机体系结构创新和变革方向的思考。在石旭看来,影响AI发展有三个关键要素:芯片、系统和算法。DeepSeek已成功证明中国在算法领域的领先优势,GPU芯片迭代周期长,短期难以一蹴而就,系统结构作为介于芯片与算法之间的重要环节,对于进一步发挥国产芯片有效算力,提升运营效率,降低运营成本,延长设备寿命等,都具有极大的创新空间。
几十年来,计算机系统一直是以CPU为核心进行构建,GPU显卡、存储等设备作为外设存在,所有外设之间的数据交换需要通过中央处理器即CPU来处理,使得CPU越来越成为AI时代的计算机系统瓶颈所在。对此,容芯致远的创业团队选择了计算机体系结构这一长期被产业界忽视的方向,率先提出AGC(以GPU为核心)的AI计算机体系结构。在石旭和他的技术团队看来,为更高效地支撑AI时代MOE模型训练推理,需要对计算机体系结构进行一次彻底的变革,即从传统的ACC架构(AI computer system with the CPU at its Core)转向AGC架构(AI computer system with the GPU at its Core),实现以GPU为核心设计AI计算机系统。只有在体系结构层面进行高维度的创新,才能打破成本、效率、灵活性“不可能三角”的魔咒,让GPU与模型服务发挥更大算力效率,同时更具成本优势和灵活的适应性。
在RISC-V生态大会的展示区,容芯致远在现场展出了多款基于AGC架构设计的AI服务器与AI Station整机方案。
与传统服务器不同,采用AGC架构的8卡GPU服务器,在一个4U机箱内部署2颗国产CPU和8张国产GPU卡,且能支持不同厂商的GPU卡异构混插,整机算力有效值(MFU)可从40%平均值提高到60%以上,并支持DeepSeek的高效推理。
图:全国产AGC架构MOE智算整机(8卡)
现场展出的AI Station适用于ToB办公场景,也是基于AGC架构设计,模块化、免主板、超静音、内置AIOS系统,可插2块全尺寸GPU卡,轻松跑通32B模型,可用于在办公室环境搭建轻量便捷、低成本的DeepSeek推理平台。
图:基于AGC架构的AI Station
值得关注的是,容芯致远预发布了一款20卡全信创AGC架构服务器设计方案,更充分地体现“以GPU为核心构建计算机系统”的设计理念,一些重要特征包括:20卡超高密度,使其不用量化即可完美兼容全尺寸DeepSeek大模型;支持“GPU暴力热插拔”,当某个GPU卡出现故障时,无须将整个设备断电即可更换GPU,使得维护周期从小时级直接降到分钟级;支持针对每颗GPU而不是整机进行卡级精准能耗控制,可根据负载需要开启或关闭目标GPU卡;全新的高速互联特性支持在5秒内唤醒加载大模型等。该款产品实现了业界首创、全球首创!