专栏名称: 程序猿

本微信公众号：imkuqin，为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。

苹果杀疯了！Mac Studio内存狂飙，跑满血DeepSeek R1消耗448GB，M3 Ultra竟然稳住了

程序猿 · 公众号 · 程序员 · 2025-03-20 21:47

正文

翻译 | 苏宓

出品 | CSDN（ID：CSDNnews）

一周前，苹果低调发布了最新款 Mac Studio，提供 M3 Ultra 和 M4 Max 两种芯片选项。其中，M3 Ultra 版本搭载 32 核 CPU 和 80 核 GPU，最高支持 512GB 统一内存。官方宣称此版本可运行超过 6000 亿参数的 LLM，也就是在家就能跑满血版的 DeepSeek R1。

这引得不少人驻足围观，并产生了一些疑问：在 AI 大模型时代，买 Mac Studio 会比买单买 GPU 更划算吗？在 AI 任务中的实际表现，它会比其他高端 PC 表现更强吗？

最近，不少国外网友在收到新设备后，纷纷开始测试模式。其中，硅谷咨询公司 Creative Strategies 的技术分析师 Max Weinbach 率先上手 256GB 版 Mac Studio，测试了 QwQ 32B、Llama 8B、Gemma2 9B 等模型，并分享了在不同设备上的评测对比数据。另外还有 YouTube 博主 Dave Lee 直接把配置拉满，在 512 GB 的 Mac Studio 上跑了满血 DeepSeek R1，那么，Mac Studio 在 AI 领域的表现到底如何？一起来看看！

话不多说，可以先看结论：

Max Weinba 表示， Nvidia RTX 5090 在 GPU 基准测试和部分 AI 任务上表现出色，但苹果芯片在使用体验和稳定性上更胜一筹。适合开发者的最佳组合是： Mac Studio（M3 Ultra）用于桌面 AI 开发 + 租用 Nvidia H100 服务器做高强度计算任务。
Dave Lee 表示： macOS 默认对 VRAM 分配有限制，需要手动调高了上限， 把可用 VRAM 提升到了 448GB，才让 DeepSeek R1 模型顺利运行。 运行庞大的 DeepSeek R1 模型时，整个系统的功耗不到 200W。如果用传统多 GPU 配置来跑这个模型，功耗起码是 M3 Ultra 的 10 倍。

购入 32 核 GPU、搭载 M3 Ultra 的新版 Mac Studio

首先，我们先看 Max Weinba 的测试过程与经历。自 2020 年购入第一台 M1 MacBook Pro 以来，Max Weinbach 便成为 Apple Silicon 的忠实用户。从 M1 MacBook Pro 升级到 M1 Max，再到 M3 Max，他最看重的始终是内存性能。这不仅是因为 Chrome 浏览器对内存的高需求，更在于他认为，内存始终是影响电脑性能的最大瓶颈。

在选择 M3 Max 时，他特意配置了 128GB 内存，因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行，会迅速把可用内存全占完。但说实话，现在随着 AI 模型规模的增长和自动化工作流的复杂化，128GB 内存在实际使用中早已不够用，显得捉襟见肘。

而搭载 M3 Ultra 芯片的 Mac Studio 让他真正感受到性能的飞跃。在 Max Weinbach 看来，这是一款专为 AI 开发者打造的工作站：超强 GPU + 最高 512GB 统一内存（LPDDR5x）+ 819GB/s 的超高内存带宽，堪称 AI 开发者的终极理想设备。

Max Weinbach 提及， AI 开发者几乎清一色都用 Mac，甚至可以夸张地说——所有顶级实验室、顶级开发者的工作环境中，Mac 早已成为标配。

所以在看到新版 Mac Studio 出来之后，他就迫不及待地买了一台，具体配置如下：

搭载 M3 Ultra 芯片
32 核 CPU
80 核 GPU
256GB 统一内存（其中 192GB 可用作 VRAM）
4TB SSD

Max Weinbach 直言，M3 Ultra 是他用过最快的电脑，甚至在 AI 任务上的表现比他的高端游戏 PC 还要强。而他的游戏 PC 配置可不低——Intel i9 13900K + RTX 5090 + 64GB DDR5 + 2TB NVMe SSD。

为了验证这一点，他对 M3 Ultra、M3 Max 和自己的游戏 PC 进行了 Geekbench AI 基准测试。

Geekbench AI 将按照全精度、半精度和量化模式顺序排序。

结果如何？直接来看数据：

运行 LLM，为什么“吃”内存？

在正式聊 M3 Ultra Mac Studio 运行 LLM 的表现之前，先来讲讲 LLM 为什么需要这么多内存。如果对这部分已经了解，可以直接跳过，这里主要是解释内存的重要性。

LLM 主要有两个部分会大量占用内存，不过其中有些可以优化：

1. 模型本身的大小

LLM 通常以 FP16（半精度浮点）格式存储，也就是每个参数占 2 字节。因此，计算方法很简单：参数数量 × 2 = 模型大小（GB 为单位）。

举个例子：Llama 3.1 8B（80 亿参数）大约需要 16GB 内存。而 DeepSeek R1 这种大模型用的是 FP8 格式（每个参数 1 字节），所以 6850 亿参数（685B）大约需要 685GB 内存。当前最强的开源模型是阿里巴巴的 QwQ 32B，跟 DeepSeek R1 旗鼓相当！它采用 BF16（16 位浮点），完整模型大约 64GB。

在 LLM 运行时，如果将模型量化到 4-bit，所需的内存可以减少一半甚至四分之一，具体取决于模型本身。例如，8B 参数模型在 4-bit 量化后大约占 4GB，QwQ 32B 约 20GB，而 DeepSeek R1 依然需要 350GB 内存。当然，还有更激进的 1.5-bit 或 2-bit 量化方式，但这通常会导致模型质量下降，除了做演示用途，基本上没什么实用价值。对于 DeepSeek R1 这样的超大模型来说，虽然 2-bit 量化能把需求降到 250GB，但依然是个庞大的数字。即便是最小版本的 DeepSeek R1，也需要 180GB 内存，但这还不是全部。

2. 上下文窗口

另一个占用大量内存的因素是上下文窗口（Context Window），也就是 LLM 处理信息的记忆范围。简单来说，模型能一次性处理多少文本，决定了它生成回应时的上下文理解能力。现在，大多数模型的上下文窗口已经扩展到 128K tokens，但一般用户实际使用的远低于这个数，大概 32K tokens 就够用了（ChatGPT Plus 也是 32K）。这些 token 需要存储在 KV Cache 里，它记录了模型输入的所有 token 以生成输出。

在客户端运行 LLM 最常用的框架是 llama.cpp，它会一次性加载完整的上下文窗口缓存 + 模型，比如 QwQ 32B 本身只有 19GB，但加载后总共占用约 51GB 内存！这 并不是坏事，在许多应用场景下，这种方式是合理的。

苹果杀疯了！Mac Studio内存狂飙，跑满血DeepSeek R1消耗448GB，M3 Ultra竟然稳住了

正文

请到「今天看啥」查看全文