一周前,苹果低调发布了最新款 Mac Studio,提供 M3 Ultra 和 M4 Max 两种芯片选项。其中,M3 Ultra 版本搭载 32 核 CPU 和 80 核 GPU,最高支持 512GB 统一内存。官方宣称此版本可运行超过 6000 亿参数的 LLM,也就是在家就能跑满血版的 DeepSeek R1。
这引得不少人驻足围观,并产生了一些疑问:在 AI 大模型时代,买 Mac Studio 会比买单买 GPU 更划算吗?在 AI 任务中的实际表现,它会比其他高
端 PC 表现更强吗?
最近,不少国外网友在收到新设备后,纷纷开始测试模式。其中,硅谷咨询公司 Creative Strategies 的技术分析师 Max Weinbach 率先上手 256GB 版 Mac Studio,测试了 QwQ 32B、Llama 8B、Gemma2 9B 等模型,并分享了在不同设备上的评测对比数据。另外还有 YouTube 博主
Dave Lee
直接把配置拉满,在 512 GB 的
Mac Studio 上跑了满血 DeepSeek R1,
那么,Mac Studio 在 AI 领域的表现到底如何?
一起来看看!
话不多说,可以先看结论:
-
Max Weinba 表示,
Nvidia RTX 5090 在 GPU 基准测试和部分 AI 任务上表现
出色,但苹果芯片在使用体验和稳定性上更胜一筹。适合开发者的最佳组合是:
Mac Studio(M3 Ultra)用于桌面 AI 开发 + 租用 Nvidia H100 服务器做高强度计算任务。
-
Dave Lee 表示:
macOS 默认对 VRAM 分配有限制,需要手动调高了上限,
把可用 VRAM 提升到了 448GB,才让 DeepSeek R1 模型顺利运行。
运行庞大的 DeepSeek R1 模型时,整个系统的功耗不到 200W。如果用传统多 GPU 配置来跑这个模型,功耗起码是 M3 Ultra 的 10 倍。
购入 32 核 GPU、搭载 M3 Ultra 的新版 Mac Studio
首先,我们先看
Max Weinba 的测试过程与经历。
自 2020 年购入第一台 M1 MacBook Pro 以来,Max Weinbach 便成为 Apple Silicon 的忠实用户。从 M1 MacBook Pro 升级到 M1 Max,再到 M3 Max,他最看重的始终是内存性能。这不仅是因为 Chrome 浏览器对内存的高需求,更在于他认为,内存始终是影响电脑性能的最大瓶颈。
在选择 M3 Max 时,他特意配置了 128GB 内存,因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行,会迅速把可用内存全占完。但说实话,现在随着 AI 模型规模的增长和自动化工作流的复杂化,128GB 内存在实际使用中早已不够用,显得捉襟见肘。
而搭载 M3 Ultra 芯片的 Mac Studio 让他真正感受到性能的飞跃。在 Max Weinbach 看来,这是一款专为 AI 开发者打造的工作站:超强 GPU + 最高 512GB 统一内存(LPDDR5x)+ 819GB/s 的超高内存带宽,堪称 AI 开发者的终极理想设备。
Max Weinbach 提及, AI 开发者几乎清一色都用 Mac,甚至可以夸张地说——所有顶级实验室、顶级开发者的工作环境中,Mac 早已成为标配。
所以在看到新版 Mac Studio 出来之后,他就迫不及待地买了一台,具体配置如下:
Max Weinbach 直言,M3 Ultra 是他用过最快的电脑,甚至在 AI 任务上的表现比他的高端游戏 PC 还要强。而他的游戏 PC 配置可不低——Intel i9 13900K + RTX 5090 + 64GB DDR5 + 2TB NVMe SSD。
为了验证这一点,他对 M3 Ultra、M3 Max 和自己的游戏 PC 进行了 Geekbench AI 基准测试。
Geekbench AI 将按照全精度、半精度和量化模式顺序排序。
结果如何?直接来看数据:
运行 LLM,为什么“吃”内存?
在正式聊 M3 Ultra Mac Studio 运行 LLM 的表现之前,先来讲讲 LLM 为什么需要这么多内存。如果对这部分已经了解,可以直接跳过,这里主要是解释内存的重要性。
LLM 主要有两个部分会大量占用内存,不过其中有些可以优化:
1. 模型本身的大小
LLM 通常以 FP16(半精度浮点)格式存储,也就是每个参数占 2 字节。因此,计算方法很简单:参数数量 × 2 = 模型大小(GB 为单位)。
举个例子:Llama 3.1 8B(80 亿参数)大约需要 16GB 内存。而 DeepSeek R1 这种大模型用的是 FP8 格式(每个参数 1 字节),所以 6850 亿参数(685B)大约需要 685GB 内存。当前最强的开源模型是阿里巴巴的 QwQ 32B,跟 DeepSeek R1 旗鼓相当!它采用 BF16(16 位浮点),完整模型大约 64GB。
在 LLM 运行时,如果将模型量化到 4-bit,所需的内存可以减少一半甚至四分之一,具体取决于模型本身。例如,8B 参数模型在 4-bit 量化后大约占 4GB,QwQ 32B 约 20GB,而 DeepSeek R1 依然需要 350GB 内存。当然,还有更激进的 1.5-bit 或 2-bit 量化方式,但这通常会导致模型质量下降,除了做演示用途,基本上没什么实用价值。对于 DeepSeek R1 这样的超大模型来说,虽然 2-bit 量化能把需求降到 250GB,但依然是个庞大的数字。即便是最小版本的 DeepSeek R1,也需要 180GB 内存,但这还不是全部。
2.
上下文窗口
另一个占用大量内存的因素是上下文窗口(Context Window),也就是 LLM 处理信息的记忆范围。简单来说,模型能一次性处理多少文本,决定了它生成回应时的上下文理解能力。现在,大多数模型的上下文窗口已经扩展到 128K tokens,但一般用户实际使用的远低于这个数,大概 32K tokens 就够用了(ChatGPT Plus 也是 32K)。这些 token 需要存储在 KV Cache 里,它记录了模型输入的所有 token 以生成输出。
在客户端运行 LLM 最常用的框架是 llama.cpp,它会一次性加载完整的上下文窗口缓存 + 模型,比如
QwQ 32B 本身只有 19GB,但加载后总共占用约 51GB 内存!这
并不是坏事,在许多应用场景下,这种方式是合理的。