专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
宝玉xp  ·  哈哈,自从 DeepSeek ... ·  昨天  
AI前线  ·  “李飞飞团队 50 美元炼出 ... ·  昨天  
机器之心  ·  华人研究团队揭秘:DeepSeek-R1-Z ... ·  昨天  
爱可可-爱生活  ·  【《深入大语言模型》随书代码】 ... ·  3 天前  
51好读  ›  专栏  ›  AI前线

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加10万个

AI前线  · 公众号  · AI  · 2024-09-04 13:52

正文

整理 | 褚杏娟

9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群,总共有 100000 个英伟达的 H100 GPU。

马斯克表示,他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地,因此 Colossus 的部署速度可以说是非常快的。马斯克表示,在接下来的几个月里,Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。

一位 X 用户指出,这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下,OpenAI 最强大的模型才使用了 80000 个 GPU。

Nvidia 的 H200 是市场上最抢手的芯片之一,尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下,H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽,Blackwell 的最高容量比 H200 高出 36.2%,总带宽高出 66.7%。

Nvidia 在 Colossus 发布后向马斯克和 xAI 团队表示祝贺。它还强调,Colossus 将是性能最强大的产品,并且在能源效率方面将有“显著提升”。

风险投资公司 ARK Invest 的首席执行官 Cathie Wood 也对该团队取得的成就表示祝贺,称其“令人印象深刻”,并表示“未来还会有重大公告”。

2023 年 4 月,有广泛报道称马斯克正在购买大量 GPU,一些消息来源报道称他打算购买多达近 10,000 个 GPU,以推进他的 xAI 项目。

在当前的人工智能淘金热中,包括微软、谷歌、亚马逊在内的多家重量级科技公司正与马斯克一道竞相采购英伟达备受青睐的 Hopper 系列人工智能芯片。马斯克也是英伟达的重要客户,其承诺今年仅用于特斯拉的英伟达硬件就要投资 30 至 40 亿美元。

孟菲斯集群将主要用来训练马斯克的 Grok-3。他在 7 月份表示,“我们希望在 12 月之前发布 Grok-3,到那时 Grok-3 应该会成为世界上最强大的人工智能。”Grok-2 的早期测试版上个月刚刚向用户推出 。

内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「 AI前线 」为你独家整理了一份演讲PPT合集,不容错过。关注「 AI前线 」,回复关键词「 PPT 」免费获取。

会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。 现在报名可以享受 9 折优惠,详情请联系票务经理  17310043226 咨询。







请到「今天看啥」查看全文