自 ChatGPT 以其惊艳的表现点燃市场热情,仅仅一年多的时间,生成式 AI 应用从技术概念走向落地实践,并与各行业加速融合,成为数字化转型的重要驱动力。
Gartner 在其一份报告中曾作出预测,到 2026 年,超过 80% 的企业将接入生成式 AI 应用或模型,而在 2023 年这一比例仅为 5%,这预示着该领域的未来发展潜力巨大。
从传统的机器学习、深度学习,到预训练模型,人工领域的每一个进步都驱动着云计算领域发生前所未有的变化。生成式 AI 及大模型的崛起和高速发展标志着产业已进入了计算密集时代,这对包括算力、存力和运力在内的云服务能力提出了更高的要求。
为了能在人工智能浪潮中占得先机,各大云厂商均在智算基础设施、资源管理及运维平台方面持续发力,金山云也不例外。
金山云严守“中立”定位,围绕算力、存力、运力、数据、平台等筑牢智算能力体系,全面助力大模型产业应用落地。
从概念到实践,生成式 AI 和大模型产业发展的每一步都离不开强大的算力支持。
高效的算力能够迅速完成大模型训练中海量数据的采集、存储、清洗、分析到价值挖掘,帮助企业实现对复杂数据的智能处理。
而在新时代,算力已经从通用计算转向异构算力融合发展,且更强调高性能和高效能。
在此背景下,金山云持续提升公有云计算能力,既有面向企业级的性能保障型云服务器 X8,也有面向通用场景的第九代云服务器高效型 SE9。
其中,基于
英特尔
®
至强
®
6
能效核处理器的第九代云服务器高效型 SE9,最大套餐规格 256 核 512 G,全面支持企业级服务,兼具效能和性价比;第八代云服务器标配极速云盘 ESSD,最大套餐规格可达 128 核 512 G,最高可支持虚机内网吞吐 100 G,内置 AMX 专用硬件,加速深度学习负载。同时,金山云也打造了较为完备的智能计算集群,能满足客户在智算场景的需求。
大模型的场景具有数据量大、参数规模大、训练周期长等特点,对存力提出了更高的要求,且更加强调高吞吐、高带宽、低延时等高性能。
针对 AIGC、存算分离、动漫渲染和高性能计算等场景,金山云推出了以闪存为介质的对象存储 KS3 极速型,最高可提供 1 Tbps/PB 的兑付带宽,相较基于机械硬盘(HDD)的对象存储性能提升了上百倍,能够应对云底座在存储容量利用、存力效率等方面面临的挑战。
在打磨算力、存力的同时,金山云在网络技术升级中采用了高性能 RoCE 网络。针对大模型训练场景,金山云RoCE网络方案容器集群中的 pod 可以
通过 RoCE 网络实现高性能互联。而在成本方面,同样的集群如果采用 IB 网络,网络本身的成本显著高于 RoCE,且随集群规模增长,这个差异会更大。
如果说智能基础设施是生成式AI和大模型持续发展的底座基石,那么如何盘活产品矩阵,构建“实用”的解决方案,并从平台层面和服务能力方面赋能客户,才能通过持续交付和落地来为客户带来业务价值。一向重视技术落地价值的金山云正是以这种逻辑陪伴客户成长的。
除了提供高性能智算基础设施,金山云还从客户实际业务场景需求出发,提供可视化的运营平台,为客户提供实际的便捷。
例如,金山云自研的 RoCE 网络监控平台提供集群端侧和网侧的基础信息与指标、网络故障感知和告警、主动排障能力;在 GPU 自动化运维插件方面,通过整合资源管理、硬件监控和 Kubernetes 调度能力,实现秒级故障感知、分钟级完成故障自愈动作。