根据最新的报道,Inflection AI 透露其最新企业平台将放弃 Nvidia GPU,转而采用英特尔的 Gaudi 3 加速器。
英特尔表示:“虽然 Inflection AI 的 Pi 客户应用程序之前是在 Nvidia GPU 上运行的,但 Inflection 3.0 将由 Gaudi 3 提供支持,实例位于本地或由 [Tiber] AI Cloud 提供支持的云端。”
Inflection AI 于 2022 年成立,是一家模型构建公司,开发了一款名为 Pi 的对话式个人助理。然而,随着主要创始人 Mustafa Suleyman 和 Karén Simonyan 今年春天离开微软,这家初创公司已将重点转向使用他们的数据为企业构建定制的微调模型。
该初创公司平台的最新版本——Inflection 3.0——旨在利用其专有数据集对其模型进行微调,以构建整个企业特定的 AI 应用程序。英特尔本身将是首批采用该服务的客户之一,这确实让我们怀疑 Inflection 是否会为加速器支付全价。
虽然 Inflection 将在 Gaudi 3 加速器上运行该服务,但它似乎不会很快投入使用。与托管在 Azure 中的 Inflection 2.5 类似,最新版本将在英特尔的 Tiber AI Cloud 服务上运行。
然而,该公司确实看到了对物理基础设施的需求,至少对于那些宁愿将数据保留在本地的客户来说是这样。从 2025 年第一季度开始,Inflection 计划提供基于英特尔 AI 加速器的物理系统。
我们要注意的是,虽然这家人工智能初创公司正在使用 Gaudi 3 加速器来支持其企业平台,但这并不意味着客户必须使用它们来运行完成的模型。
AI 模型和软件开发并不便宜,与 Nvidia 的 H100 相比,英特尔的 Gaudi 3 相对便宜。“通过在英特尔上运行 Inflection 3.0,我们看到性价比提高了 2 倍……与目前的竞争产品相比,”Inflection AI 首席执行官 Sean White周一在一篇博客文章中写道。
至少从纸面上看,Gaudi 3 不仅有望比 Nvidia 的 H100 更快地进行训练和推理,而且更便宜。
Habana Lab 的 Gaudi 3 加速器于 4 月份在英特尔视觉大会上发布,拥有128 GB HBM2e 内存,可提供 3.7 Tbps 的带宽和 1,835 teraFLOPS 的密集 FP8 或 BF16 性能。
虽然在 8 位精度下它大致与 H100 相当,但在 16 位精度下,它提供了几乎两倍的密集浮点性能,这对于 Inflection 所针对的训练和微调工作负载来说有很大不同。
英特尔是人工智能领域的弱势一方,该芯片的主流上市时间与 Nvidia 的Blackwell和 AMD 288GB MI325X GPU的发布时间不匹配,这两款 GPU 都将于第四季度上市。因此,英特尔对其加速器的定价相当激进。
今年春季的台北国际电脑展上,英特尔首席执行官帕特·基辛格 (Pat Gelsinger) 表示,英特尔透露,配备八个加速器的单个 Gaudi 3 系统的成本仅为 125,000 美元,约为同等 H100 系统的三分之二。
Inflection 并不是英特尔近期取得的唯一胜利。今年 8 月,蓝色巨人宣布将在 IBM Cloud 中部署英特尔的 Gaudi 3 加速器,预计于 2025 年初投入使用。
未来,IBM 计划将对 Gaudi 3 的支持扩展到其 watsonx AI平台。与此同时,英特尔告诉El Reg,该加速器已经开始向包括戴尔科技和超微在内的 OEM 发货。
虽然让主要 OEM 认真对待 Gaudi 对英特尔来说是一个胜利,但该平台的未来却充满不确定性。正如我们之前报道的那样,Gaudi 3 是 Habana-Labs 开发的加速器的最后一次欢呼。
从明年开始,Gaudi 将让位于名为 Falcon Shores 的 GPU,它将融合英特尔的 Xe 图形 DNA 与 Habana 的化学特性,从而引发有关迁移路径的可以理解的问题。
英特尔一直坚称,对于使用 PyTorch 等高级框架进行编码的客户来说,迁移将基本无缝。对于那些在较低级别构建 AI 应用程序的人,该芯片制造商承诺在 Falcon Shores 首次亮相之前提供更多指导。
超级微电脑周一表示,目前每季度的图形处理器出货量超过 100,000 个,并推出了一套新的液体冷却产品,这使得这家 AI 服务器制造商的股价在连续数周的低迷之后上涨了约 14%。
生成人工智能技术的蓬勃发展,推动了对处理 genAI 所用大量数据所需硬件的需求,从而帮助了超微公司,该公司生产的服务器采用了包括 Nvidia (NVDA.O)在内的领先 AI 芯片。
超微在一份声明中表示,该公司“最近为一些有史以来最大的 AI 工厂部署了超过 100,000 个带有液体冷却解决方案 (DLC) 的 GPU”。
如果涨势持续下去,超微公司的市值将增加 30 多亿美元。
该公司因其液体冷却技术而广受好评,该技术比一些数据中心使用的空气冷却技术更节能。
周一的上涨让超微公司的投资者松了一口气,此前该公司股价因越来越多的麻烦而遭受重创,其中包括兴登堡研究公司 (Hindenburg Research) 在 8 月份披露持有该公司的空头头寸。
市场研究公司 Ortex 估计,超微公司的空头持仓仅占其流通股的 20% 多一点,价值约为 35.9 亿美元。
Ortex 表示:“这是否与卖空者试图回购股票有关现在还难以下结论,但以目前的价格来看,卖空者正在遭受短期损失,并可能选择平仓。”他指出,这可能增加该股当日的涨幅。
超微公司的股价在过去两周内下跌了 9% 以上,但今年以来仍上涨了 66% 以上,受益于华尔街蓬勃发展的与人工智能相关的“镐和铲子”交易。
该公司还推出了一系列新的 DLC 产品,可实现“最高每机架 GPU 密度”,每机架最多可容纳 96 个 Nvidia B200 芯片。
eMarketer 高级人工智能和技术分析师 Gadjo Sevilla 表示:“基础设施能源节省高达 40%,空间节省高达 80%,这对于大型、耗电的人工智能部署来说是一个巨大的创新,并且可能是与竞争对手的关键区别因素。”
最近,英特尔还发布了一款 128 核 Granite Rapids Xeon 6 处理器,这将给竞争对手AMD带来巨大威胁。
这是因为英特尔和 AMD 会鼓励你把很多鸡蛋放在他们的多核篮子里。我听说这两家公司都认为,72 到 128 核的 6900P 处理器系列、144 核的 Sierra Forrest Xeon 6、承诺的 288 核怪兽 Xeon 以及即将推出的192 核 Turin Epyc等产品通过将更多核心装入一台机器,为新一轮的服务器整合提供了机会。
芯片制造商建议,用运行其巨型硅片的机器替换您当前的服务器,将释放多达一半的机架空间并削减您的电费。他们几乎唤起了这样一个时刻:数据中心运营人员采用这项新技术后,将享受工作出色、地球得到保护和奖金丰厚的喜悦。
你不必这样做。如果你不想这样做,那就坚持下去。许多组织已经对适度的硬件进行了标准化,并且做得很好。但如果老板在航空杂志上读到新一轮服务器整合的机会,请让他们考虑一些事项。
一是风险集中:多核服务器可以运行如此多的工作负载,其故障将是灾难性的。是的,故障转移到另一台服务器是一门成熟的艺术。
制造内存仍然是一个不确定的过程,这就是它仍然如此昂贵的原因。运行数百个内核的服务器将需要大量 RAM 来处理其运行的所有工作负载,而这些内存最终的成本将高于服务器本身。
这或许可以解释为何内存制造商美光公司对多核服务器推动其产品需求的前景如此兴奋。
但是,如果您购买的服务器内存塞满,利用率却很低,首席财务官们就不会兴奋了,因此当您的其他配备多核的服务器出现故障时,他们有足够的容量来执行 DR 任务。
接下来,考虑一下您的 DR 设备是否已设置为快速处理 128 个核心的工作负载。故障转移和 VM 远程传送技术(如 VMware 的 vMotion)仍然几乎是奇迹。但是,您为当前设备构建的 DR 实践在移动更多数据时可能效果不佳。数据保护和存储供应商会声称他们已经做好准备,但他们的参考架构无法经受住与敌人的接触。
还要检查您的软件许可证。您的软件供应商是否允许您为比您使用的机箱中更少的核心付费?有些供应商不允许在裸机上付费,或者坚持虚拟机的最低核心数。您需要仔细规划,以确保这些大型新机箱不会使许可变得复杂。
还要考虑的是,处理这种规模的硬件风险并不是许多组织的核心竞争力。
但我能想到一些绝对必要的公司:AWS、微软、谷歌、甲骨文、阿里巴巴和少数其他超大规模公司。
这些组织可以大批量购买服务器,并且知道如何在不占用资金的情况下让服务器收回成本。他们还精通弹性和冗余,并在定价和计划中考虑了预测的硬件故障率。
匹配它们不是你的工作。你信任的托管服务提供商也不能管理你的托管或小型云。
因此,超大规模云是多核机器的自然目的地,它看起来不像是新一波的整合机会,而更像是将你拉入云中的一股潮流。
我们逐渐认识到云环境会带来成本不确定性和锁定风险。