Meta公开 Llama-3基础训练设施：使用了49,000个H100

AI前线 · 公众号 · · 2024-03-13 13:30

正文

来源 | 授权转载自AIGC开放社区（公众号ID:AIGCOPEN）

3 月 13 日，社交、科技巨头 Meta 在官网公布了两个全新的 24K H100 GPU 集群（49,152 个），专门用于训练大模型 Llama-3。

此外，Llama-3 使用了 RoCEv2 网络，基于 Tectonic/Hammerspace 的 NFS/FUSE 网络存储，继续使用了 PyTorch 机器学习库。

从训练进度来看，估计 Llama-3 最快将于 4 月末或 5 月中旬上线。受 Sora 影响，很可能是一个多模态模型，并且会继续开源。

Meta 表示，预计到 2024 年底，将拥有 600,000 个 H100 的算力。

Meta首席科学家确认

Meta 庞大的 AI 算力集群

Meta 作为全球市值最高的科技公司之一，对 AI 的投入一直非常大，致力于构建造福全人类的 AGI（通用人工智能）。

早在 2022 年 1 月 24 日，Meta 首次公布了 AI 研究超级集群 (RSC) 的详细信息，拥有 16,000 个英伟达 A100 GPU。

该集群在开发全球最受欢迎的类 ChatGPT 模型 Llama 和 Llama 2，以及计算机视觉、NLP 和语音识别、图像生成等发挥了重要作用。

本次新增的 GPU 集群建立在 RSC 成功经验之上，每个集群包含 24,576 个 H100 GPU，能够支持比以往更复杂、参数更高的大模型训练。

集群网络

Meta 每天要处理数百万亿次 AI 模型的请求，所以，使用一个高效、灵活的网络才能保证数据中心安全、稳定的运行。

一个集群是基于 Arista7800、Wedge400 和 Minipack2 OCP 机架交换机，构建了一个具有融合以太网远程直接内存访问 (RoCE) 网络结构的解决方案；

另外一个使用了 NVIDIA Quantum2 InfiniBand 结构，这两种方案都能互连 400 Gbps 端点。

在两个不同集群帮助下， Meta 可以评估不同类型的互联对大规模训练的适用性和可扩展性，为以后设计和构建更大、更大规模的集群提供更多经验。

此外，Meta 已经成功地将 RoCE 和 InfiniBand 集群用于大型生成式 AI 工作负载（包括正在 RoCE 集群上对 Llama 3 进行的训练），并且没有出现任何网络瓶颈。

硬件平台

新增的两个集群全部使用 Grand Teton，这是 Meta 内部设计的开放性 GPU 硬件平台，于 2022 年 10 月 18 日首次发布。

Grand Teton 建立在多代人工智能系统的基础上，将电源、控制、计算和结构接口集成到一个机箱中，以获得更好的整体性能、信号完整性和散热性能。具有简化的设计、灵活性，可快速部署到数据中心机群中，并易于维护和扩展等优点。

数据存储

随着大模型的功能趋于多模特，需要消耗大量的图像、视频、音频和文本数据，所以，对数据存储的需求迅速增长。

Meta 新集群的存储部署通过自创的用户空间 Linux 文件系统 API 来满足人工智能集群的数据和检查点需求， 该应用程序接口由 Meta 针对闪存媒体进行了优化的 Tectonic 分布式存储解决方案版本提供支持 。

该解决方案使数千个 GPU 能够以同步方式保存和加载检查点（这对任何存储解决方案来说都是一个挑战），同时还提供了数据加载所需的灵活、高吞吐量的外字节级存储。

Meta 还与 Hammerspace 合作，共同开发、部署并行网络文件系统 (NFS)，以满足开发人员对超级 AI 集群的存储要求。

此外，Hammerspace 还能让工程师使用数千个 GPU 对作业进行交互式调试，因为环境中的所有节点都能立即访问代码更改。

将 Meta 的 Tectonic 分布式存储解决方案和 Hammerspace 结合在一起，可以在不影响规模的情况下实现快速功能迭代。

内容推荐

OpenAI 的首个视频生成模型 Sora 发布，效果令人惊叹。作为技术人，除了看热闹，我们还要看门道；咱也不必跟着瞎焦虑，踏实下来研究些干货内容。看看郑建勋老师对 Sora 官方技术报告的深度解读，关注「AI前线」，回复「Sora」免费领取。