#DeepSeek宣布将开源5个代码库#
蹲守在这个地址就对了:github.com/deepseek-ai/open-infra-index
目前就已经有超过3000⭐了!现在放了一篇24年8月的论文:Fire-Flyer AI-HPC:一种经济高效的深度学习软硬件协同设计(A Cost-Effective Software-Hardware Co-Design for Deep Learning)
论文摘要:
深度学习 (DL) 和大型语言模型 (LLM) 的快速发展成倍增加了对计算能力和带宽的需求。再加上更快的计算芯片和互连的高成本,高性能计算 (HPC) 的建设成本大幅膨胀。
为了应对这些挑战,我们引入了 Fire-Flyer AI-HPC 架构,这是一个协同的软硬件联合设计框架及其最佳实践。对于 DL 训练,我们部署了带有 10,000 个 PCIe A100 GPU 的 Fire-Flyer 2,实现了接近 DGX-A100 的性能,同时将成本降低了一半,能耗降低了 40%。我们专门设计了 HFReduce 来加速 allreduce 通信,并实施了多项措施来保持我们的计算-存储集成网络无拥塞。
通过我们的软件堆栈,包括 HaiScale、3FS 和 HAI-Platform,我们通过重叠计算和通信实现了显着的可扩展性。我们在 DL 训练中积累的系统导向经验为推动 AI-HPC 的未来发展提供了宝贵的见解。
论文:arxiv.org/abs/2408.14158
#deepseek# #ai创造营#
蹲守在这个地址就对了:github.com/deepseek-ai/open-infra-index
目前就已经有超过3000⭐了!现在放了一篇24年8月的论文:Fire-Flyer AI-HPC:一种经济高效的深度学习软硬件协同设计(A Cost-Effective Software-Hardware Co-Design for Deep Learning)
论文摘要:
深度学习 (DL) 和大型语言模型 (LLM) 的快速发展成倍增加了对计算能力和带宽的需求。再加上更快的计算芯片和互连的高成本,高性能计算 (HPC) 的建设成本大幅膨胀。
为了应对这些挑战,我们引入了 Fire-Flyer AI-HPC 架构,这是一个协同的软硬件联合设计框架及其最佳实践。对于 DL 训练,我们部署了带有 10,000 个 PCIe A100 GPU 的 Fire-Flyer 2,实现了接近 DGX-A100 的性能,同时将成本降低了一半,能耗降低了 40%。我们专门设计了 HFReduce 来加速 allreduce 通信,并实施了多项措施来保持我们的计算-存储集成网络无拥塞。
通过我们的软件堆栈,包括 HaiScale、3FS 和 HAI-Platform,我们通过重叠计算和通信实现了显着的可扩展性。我们在 DL 训练中积累的系统导向经验为推动 AI-HPC 的未来发展提供了宝贵的见解。
论文:arxiv.org/abs/2408.14158
#deepseek# #ai创造营#