近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。
万卡集群是什么?它是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用于加速人工智能模型的训练和推理过程。蛇年新春伊始,这一重大突破不仅为百度自身技术发展提供了强大动力,也为整个中国科技界、互联网行业和AI行业带来了新的发展机遇,为大模型达成万千需求的AI生态,提供了更厚实更智能的“肩膀”,为可以预见的百花齐放万紫千红的行业远景和AI愿景,提供了更多可能。
从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。
随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。
Deepseek之所以能够震撼全球,最大的亮点之一就是“把价格打了下来”。用了非常小的成本实现了同等算力结果,“花小钱办大事”不仅凸现了中国AI的破局之道,更彰显了中国智慧。而此次百度智能云成功点亮昆仑芯三代万卡集群的意义所在,不仅仅是带来了强大的算力支持,还进一步推动了模型降本的趋势成形。
业内专家表示,过去一年中,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。百度昆仑芯三代万卡集群的成功点亮,是中国科技界在人工智能领域的又一次重大突破。国产万卡集群的出现可以解决过去价格高和无法稳定应用等问题,让企业进行应用开发与产业创新的门槛更低。
过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战。而2024年9月升级的百度百舸AI异构计算平台4.0(以下简称“百舸平台”),在万卡集群的建设中发挥了至关重要的作用。百舸赋能,全方位提升了集群性能与稳定性。
首先,为了解决大模型训练时高通信带宽的需求,百度建设了超大规模HPN高性能网络,通过优化的拥塞控制算法、集合通信算法策略,提升了通信效率,将带宽有效性提升到90%以上。
同时,万卡集群的能耗极高,常规的散热方案能耗可达十兆瓦或更高,这将提升企业进行模型训练的电力成本,为此,百舸采用了创新性散热方案,可以有效降低能耗,进一步降低模型训练成本。
然后,为了提升GPU 的有效利用率(通常用MFU来表示GPU的有效利用率),百舸不断优化并完善模型的分布式训练策略,通过高效并行化任务切分策略,将训练主流开源模型的集群MFU提升至58%;