专栏名称: 瓦砾村夫

看瓦砾村夫翻译的马斯克访谈、演讲和问答，完整了解真实的老马。

马斯克详解：xAI如何在122天内搭建上线10万张卡训练集群

瓦砾村夫 · 公众号 · 科技创业 · 2025-02-19 07:32

主要观点总结

埃隆·马斯克主持了人工智能项目Grok 3的发布会，并详细介绍了其新推出的功能特点，包括显著提升的推理能力和自然语言处理能力以及新工具Deep Search的功能。发布会还介绍了项目中最困难的挑战在于如何协调训练全球最大训练集群，并分享了克服这些困难的过程，包括寻找合适的工厂作为数据中心，解决电力波动问题以及确保网络的顺畅运行等。

关键观点总结

关键观点1: Grok 3的核心特点

包括显著提升的推理能力、自然语言处理能力以及新推出的“Deep Search”工具。

关键观点2: 全球最大训练集群的搭建过程

面临了诸多挑战，包括协调训练模型在10万个GPU上的运行、电力波动问题以及网络问题等。

关键观点3: 数据中心的位置选择

选择了伊莱克斯工厂作为数据中心，该工厂被废弃但状况良好。

关键观点4: 电力问题的解决

需要至少120兆瓦的电力，最终为了20万个GPU需要0.25吉瓦的电力。通过租用发电机、使用液冷系统和特斯拉的Megapack来平滑电力波动来解决电力问题。

关键观点5: Grok 3训练过程的挑战

必须确保训练集群的健康运行，并确保每一个细节都正确，才能得到一个Grok 3级别的模型，这是非常困难和具有挑战性的。

正文

昨天中午，埃隆·马斯克领衔主持了万众期待的“地表最强人工智能”——Grok 3的发布会。

他与xAI的首席工程师Igor Babuschkin、联合创始人Jimmy Ba、Yuhuai "Tony" Wu共同亮相，详细介绍了Grok 3的核心特点，包括其显著提升的推理能力、自然语言处理能力以及新推出的“Deep Search”（深度搜索）工具。这一工具被设计用来处理复杂的查询，能够整合网络搜索和X平台上的实时信息，为用户提供更精准、深入的回答。

在回答最后一个观众提问时，埃隆介绍了xAI团队如何创下另一个工程奇迹：克服重重困难，在短短122天内，搭建并上线了10万张卡的全球最大训练集群。

观众提问：

在这个项目（Grok 3）中，最困难的部分是什么？你对此感到兴奋的是什么？

Jimmy Ba：

回想起来，我认为最困难的部分是让整个模型在10万个H100 GPU上协调训练，这几乎就像在与宇宙的最终BOSS——熵——作斗争。因为在任何时候，都有可能射下来一根宇宙射线，翻转晶体管中的一个比特，如果梯度更新中有一个比特出错，整个梯度更新就会乱套。

而现在我们有10万个这样的GPU，每次我们都必须让它们协同工作，任何时候任何一个GPU都可能出问题。

Jimmy Ba | home page

Jimmy Ba，华人，多伦多大学助理教授，人工智能先驱杰弗里·辛顿（Geoffrey Hinton）的学生，xAI团队创始12员工之一

埃隆·马斯克：

是的，值得分解一下，我们是如何在122天内让世界上最强大的训练集群投入运行的。

一开始，我们其实并没有打算自己建数据中心。我们去找了数据中心提供商，问他们在一个地方协调运行10万个GPU需要多长时间。他们给出的时间范围是18到24个月。我们想， 18到24个月，这意味着失败是必然的。

所以唯一的办法就是自己动手。

于是，我们分解了这个问题。比如我们需要一栋建筑，我们不能自己建，必须使用现有的建筑。所以我们基本上寻找了一些被废弃、但本身状况良好的工厂，比如因为某家公司破产了之类的。

我们在孟菲斯找到了一家伊莱克斯工厂。这就是为什么它在孟菲斯——猫王的故乡，也是古埃及的首都之一。

这其实是一座非常不错的工厂，我不知道伊莱克斯为什么离开了，但它为我们的计算机提供了庇护所。

然后，我们需要电力，最初至少需要120兆瓦，但建筑本身只有15兆瓦。而最终为了20万个GPU，我们需要0.25吉瓦的电力。

我们最初租了一大堆发电机。在建筑的一侧，我们有一排排的发电机，直到我们能够接入公用电力。

然后，我们还需要冷却。所以在建筑的另一侧，我们有一排排的冷却设备。我们租用了美国大约四分之一的移动冷却能力。

然后，我们需要安装所有的GPU，它们都是液冷的。为了实现必要的密度，这是一个液冷系统。所以我们必须为液冷系统安装所有的管道。没有人曾经大规模地搭建过液冷的数据中心。

这是一个非常才华横溢的团队付出了极大的努力才能实现的结果。

你可能会想，现在应该可以跑起来了吧？

不。问题是GPU集群的电力波动非常剧烈，这就像一场巨大的交响乐。想象一下，一场有10万或20万人参与的交响乐，整个乐团会在100毫秒内从安静变到响亮。这导致了巨大的电力波动，进而导致发电机失控，它们从没预料到这种情况。

为了缓冲电力，我们使用了特斯拉的Megapack来平滑电力。 Megapack 必须重新编程，于是x AI与特斯拉合作，我们重新编程了Megapack ，让它能够应对这些剧烈的电力波动，平滑电力，以便计算机能够正常运行。

这个方法奏效了，虽然过程相当复杂。