关注飞总聊IT,了解IT行业的方方面面。
近日,百度智能云成功点亮昆仑芯三代万卡集群,成为国内首个正式点亮的自研万卡集群。
这不仅标志着百度在自研芯片与大规模AI算力布局上的又一次重大突破,也预示着AI模型训练成本将迎来新一轮下降。
更重要的是,百度智能云即将进一步点亮3万卡集群,在AI算力赛道上持续领跑。
在当前AI大模型的竞争格局下,算力已成为制约创新和产业落地的关键瓶颈。而百度通过昆仑芯+百舸AI异构计算平台双轮驱动,成功构建超大规模算力集群,不仅提升了模型训练效率,还显著降低了算力成本,加速AI技术普惠化进程。
当前,AI行业普遍面临高昂的算力成本,而算力紧张是主要原因之一。百度智能云通过自研昆仑芯三代及万卡集群建设,不仅确保了自身算力供应,也为行业提供了新的降本增效方案。
传统的千亿参数模型训练周期长、成本高,而万卡集群能大幅缩短训练时间,使AI原生应用能够快速迭代。
同时,该集群具备更强的计算能力,可支持更大规模模型和更复杂的多模态任务,例如Sora类应用的开发。
万卡集群不仅能处理单一任务,还具备动态资源切分能力,可同时训练多个轻量化模型。
借助通信优化与容错机制,有效减少算力浪费,实现训练成本指数级下降。
过去,大模型训练往往是“单任务算力消耗”,导致资源利用率不均衡。
百度智能云通过模型优化、有效训练率提升、动态资源调度等方式,实现训练、微调、推理任务的混合部署,从而提升集群综合利用率,使单位算力成本进一步降低。
整体来看,百度万卡集群的建成,不仅是算力规模的提升,更是算力经济性的突破,对整个行业具有深远影响。
支撑万卡集群高效运行的核心,是百度自研的昆仑芯三代。相较于前代产品,新一代昆仑芯在算力、能效、稳定性等方面全面升级,使百度智能云的AI算力生态更具竞争力。
大规模算力集群的功耗问题一直是行业难题,常规万卡集群方案功耗可高达十兆瓦以上。
百度智能云通过创新性散热设计,显著降低能耗,使昆仑芯三代在高性能计算场景下更加稳定。
针对大模型的分布式训练,昆仑芯三代结合高效并行任务切分策略,在训练主流开源模型时,集群MFU(集群计算利用率)提升至58%,有效提升算力利用效率。
AI模型训练过程中,机间通信带宽往往成为性能瓶颈。百度智能云构建HPN高性能网络,优化拓扑结构,使集群的带宽有效性达到90%以上,有效降低通信损耗,提升整体计算效率。
在超大规模集群中,单卡故障率随规模指数增长。百度智能云引入智能容错机制,避免单点故障影响整体训练任务,使万卡集群的有效训练率达到98%以上,大幅提升训练稳定性。
构建万卡集群,不仅仅是堆砌硬件,更需要强大的AI计算平台来支撑整个训练、推理、优化过程。百度智能云依托百舸AI异构计算平台4.0,实现了从集群创建、开发实验、模型训练、模型推理的全链路优化。
首先,百舸4.0支持国产昆仑芯及其他异构芯片混训,使算力资源调度更加灵活,训练效率更高。
其次,通过大规模快速调度和任务初始化机制,百舸4.0可智能分配算力资源,使集群总体使用率提升至90%以上。
再次,百舸提供分钟级部署能力,使企业能够快速验证主流大模型推理效果,加速AI应用的商业化落地。
最后,依托BCCL大规模通信优化和分布式容错机制,百舸在万卡集群上实现了稳定高效的运行,使训练任务不中断,提高企业业务连续性。
百度的自研昆仑芯万卡集群和
百度百舸,已经在很多个企业落地,赋能企业AI创新,为企业提供了实实在在的价值。
比如说,好未来
依托百度百舸,成功训练九章大模型(MathGPT),并在智能硬件、学习机等产品中应用,提升教育智能化体验。
基于百舸4.0的算力优化方案,长安汽车的算力使用率提升至90%以上,助力智能驾驶技术加速发展。