专栏名称: 程序猿
本微信公众号:imkuqin,为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。
目录
相关文章推荐
51好读  ›  专栏  ›  程序猿

苹果杀疯了!Mac Studio内存狂飙,跑满血DeepSeek R1消耗448GB,M3 Ultra竟然稳住了

程序猿  · 公众号  · 程序员  · 2025-03-20 21:47

正文

翻译 | 苏宓
出品 | CSDN(ID:CSDNnews)

一周前,苹果低调发布了最新款 Mac Studio,提供 M3 Ultra 和 M4 Max 两种芯片选项。其中,M3 Ultra 版本搭载 32 核 CPU 和 80 核 GPU,最高支持 512GB 统一内存。官方宣称此版本可运行超过 6000 亿参数的 LLM,也就是在家就能跑满血版的 DeepSeek R1。

这引得不少人驻足围观,并产生了一些疑问:在 AI 大模型时代,买 Mac Studio 会比买单买 GPU 更划算吗?在 AI 任务中的实际表现,它会比其他高 端 PC 表现更强吗?

最近,不少国外网友在收到新设备后,纷纷开始测试模式。其中,硅谷咨询公司 Creative Strategies 的技术分析师 Max Weinbach 率先上手 256GB 版 Mac Studio,测试了 QwQ 32B、Llama 8B、Gemma2 9B 等模型,并分享了在不同设备上的评测对比数据。另外还有 YouTube 博主 Dave Lee 直接把配置拉满,在 512 GB 的 Mac Studio 上跑了满血 DeepSeek R1, 那么,Mac Studio 在 AI 领域的表现到底如何? 一起来看看!

话不多说,可以先看结论:

  • Max Weinba 表示, Nvidia RTX 5090 在 GPU 基准测试和部分 AI 任务上表现 出色,但苹果芯片在使用体验和稳定性上更胜一筹。适合开发者的最佳组合是: Mac Studio(M3 Ultra)用于桌面 AI 开发 + 租用 Nvidia H100 服务器做高强度计算任务。

  • Dave Lee 表示: macOS 默认对 VRAM 分配有限制,需要手动调高了上限, 把可用 VRAM 提升到了 448GB,才让 DeepSeek R1 模型顺利运行。 运行庞大的 DeepSeek R1 模型时,整个系统的功耗不到 200W。如果用传统多 GPU 配置来跑这个模型,功耗起码是 M3 Ultra 的 10 倍。


购入 32 核 GPU、搭载 M3 Ultra 的新版 Mac Studio

首先,我们先看 Max Weinba 的测试过程与经历。 自 2020 年购入第一台 M1 MacBook Pro 以来,Max Weinbach 便成为 Apple Silicon 的忠实用户。从 M1 MacBook Pro 升级到 M1 Max,再到 M3 Max,他最看重的始终是内存性能。这不仅是因为 Chrome 浏览器对内存的高需求,更在于他认为,内存始终是影响电脑性能的最大瓶颈。

在选择 M3 Max 时,他特意配置了 128GB 内存,因为 Llama.cpp 和 MLX 这些 AI 框架越来越流行,会迅速把可用内存全占完。但说实话,现在随着 AI 模型规模的增长和自动化工作流的复杂化,128GB 内存在实际使用中早已不够用,显得捉襟见肘。

而搭载 M3 Ultra 芯片的 Mac Studio 让他真正感受到性能的飞跃。在 Max Weinbach 看来,这是一款专为 AI 开发者打造的工作站:超强 GPU + 最高 512GB 统一内存(LPDDR5x)+ 819GB/s 的超高内存带宽,堪称 AI 开发者的终极理想设备。

Max Weinbach 提及, AI 开发者几乎清一色都用 Mac,甚至可以夸张地说——所有顶级实验室、顶级开发者的工作环境中,Mac 早已成为标配。

所以在看到新版 Mac Studio 出来之后,他就迫不及待地买了一台,具体配置如下:

  • 搭载 M3 Ultra 芯片

  • 32 核 CPU

  • 80 核 GPU

  • 256GB 统一内存(其中 192GB 可用作 VRAM)

  • 4TB SSD

Max Weinbach 直言,M3 Ultra 是他用过最快的电脑,甚至在 AI 任务上的表现比他的高端游戏 PC 还要强。而他的游戏 PC 配置可不低——Intel i9 13900K + RTX 5090 + 64GB DDR5 + 2TB NVMe SSD。

为了验证这一点,他对 M3 Ultra、M3 Max 和自己的游戏 PC 进行了 Geekbench AI 基准测试。

Geekbench AI 将按照全精度、半精度和量化模式顺序排序。

结果如何?直接来看数据:


运行 LLM,为什么“吃”内存?

在正式聊 M3 Ultra Mac Studio 运行 LLM 的表现之前,先来讲讲 LLM 为什么需要这么多内存。如果对这部分已经了解,可以直接跳过,这里主要是解释内存的重要性。

LLM 主要有两个部分会大量占用内存,不过其中有些可以优化:

1. 模型本身的大小

LLM 通常以 FP16(半精度浮点)格式存储,也就是每个参数占 2 字节。因此,计算方法很简单:参数数量 × 2 = 模型大小(GB 为单位)。

举个例子:Llama 3.1 8B(80 亿参数)大约需要 16GB 内存。而 DeepSeek R1 这种大模型用的是 FP8 格式(每个参数 1 字节),所以 6850 亿参数(685B)大约需要 685GB 内存。当前最强的开源模型是阿里巴巴的 QwQ 32B,跟 DeepSeek R1 旗鼓相当!它采用 BF16(16 位浮点),完整模型大约 64GB。

在 LLM 运行时,如果将模型量化到 4-bit,所需的内存可以减少一半甚至四分之一,具体取决于模型本身。例如,8B 参数模型在 4-bit 量化后大约占 4GB,QwQ 32B 约 20GB,而 DeepSeek R1 依然需要 350GB 内存。当然,还有更激进的 1.5-bit 或 2-bit 量化方式,但这通常会导致模型质量下降,除了做演示用途,基本上没什么实用价值。对于 DeepSeek R1 这样的超大模型来说,虽然 2-bit 量化能把需求降到 250GB,但依然是个庞大的数字。即便是最小版本的 DeepSeek R1,也需要 180GB 内存,但这还不是全部。

2. 上下文窗口

另一个占用大量内存的因素是上下文窗口(Context Window),也就是 LLM 处理信息的记忆范围。简单来说,模型能一次性处理多少文本,决定了它生成回应时的上下文理解能力。现在,大多数模型的上下文窗口已经扩展到 128K tokens,但一般用户实际使用的远低于这个数,大概 32K tokens 就够用了(ChatGPT Plus 也是 32K)。这些 token 需要存储在 KV Cache 里,它记录了模型输入的所有 token 以生成输出。

在客户端运行 LLM 最常用的框架是 llama.cpp,它会一次性加载完整的上下文窗口缓存 + 模型,比如 QwQ 32B 本身只有 19GB,但加载后总共占用约 51GB 内存!这 并不是坏事,在许多应用场景下,这种方式是合理的。







请到「今天看啥」查看全文