Lex Fridman 录制了一期关于 Deepseek 的播客
#AI创造营#
#deepseek#
采访对象是 AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 硬件专家 Dylan Patel
三个多小时时长,非常值得听一下。
详细讨论了关于 Deepseek、中美 AI 竞争等关于 AI 的方方面面
整理了一个一千多字的总结,懒得看视频可以看看
Deepseek 的技术突破:V3 和 R1 模型
Nathan Lambert 首先介绍了 Deepseek 发布的两款核心模型:Deepseek V3 和 Deepseek R1。
- Deepseek V3:这是一款混合专家 (Mixture of Experts, MoE) 架构的 Transformer 语言模型,采用了开放权重模式。V3 分为基础模型和指令模型,指令模型经过指令微调等后训练技术,更易于使用,类似于 ChatGPT。V3 的发布时间是 2023 年 12 月底,其性能已可与 GPT-4 和 Llama 405B 等顶尖模型相媲美。
- Deepseek R1:这是一款推理模型,于 V3 发布几周后推出。R1 与 V3 共享许多训练步骤,但在后训练阶段采用了不同的技术,专注于提升模型的推理能力。R1 的独特之处在于其能够展示链式思考 (Chain-of-Thought) 的推理过程,这在以往的模型中较为罕见,引起了 AI 社区乃至更广泛领域的强烈兴趣。
开放权重:AI 领域的开源运动
访谈深入探讨了 “开放权重” 的概念及其在 AI 领域的意义。开放权重指的是模型权重(模型的核心参数)在互联网上公开提供下载,用户可以自由使用和研究。
- 开放权重的定义与许可:开放权重并不等同于完全的 “开源”,它主要指模型权重的公开,而训练数据和代码可能仍然是闭源的。开放权重模型通常附带不同的许可证,规定了用户的使用条款,例如商业用途限制、修改权限等。Deepseek R1 采用了 MIT 许可证,这是一种非常宽松的许可证,允许商业用途和下游修改,体现了 Deepseek 在推动 AI 开放性方面的积极姿态。
- 开放权重的意义:开放权重降低了 AI 技术的门槛,使得更多研究人员、工程师甚至个人开发者能够接触和使用最先进的 AI 模型,促进了 AI 技术的普及和创新。同时,开放权重也增强了用户对数据隐私的控制,用户可以在本地运行模型,无需将数据上传到云端 API,从而降低了数据泄露的风险。
- 与 OpenAI 的对比:Deepseek 的开放权重策略与 OpenAI 的封闭模式形成鲜明对比。Deepseek 的做法对 OpenAI 等公司构成了压力,促使整个行业朝着更加开放的方向发展。同时,Deepseek 在技术报告中公开了大量模型训练的细节,这也推动了 AI 技术的透明度和可操作性。
Deepseek 的技术优势:混合专家架构与多头潜在注意力
Dylan Patel 和 Nathan Lambert 详细分析了 Deepseek 模型在技术上的创新,特别是混合专家架构 (MoE) 和多头潜在注意力 (MLA)。
- 混合专家架构 (MoE):MoE 是一种模型架构,旨在提高模型参数量和计算效率。传统的稠密模型在推理时会激活所有参数,而 MoE 模型则只激活模型中的一部分 “专家” 参数,从而在保持模型容量的同时,降低了计算成本。Deepseek V3 采用了 MoE 架构,拥有 6000 多亿参数,但在推理时只激活约 370 亿参数,大大提高了训练和推理的效率。
- 多头潜在注意力 (MLA):MLA 是 Deepseek 提出的新型注意力机制,旨在降低推理过程中的内存使用量。MLA 通过低秩近似等技术,减少了注意力计算的复杂度,提高了长文本处理的效率。结合 MoE 和 MLA,Deepseek 模型在保证性能的同时,实现了更低的计算和内存成本,使其在推理成本上具有显著优势。
- 底层优化:为了进一步提升效率,Deepseek 团队还进行了大量的底层优化,包括修改 CUDA 代码、定制通信调度等。这些优化深入到 GPU 硬件层面,充分挖掘了硬件的潜力,使得 Deepseek 能够在相对有限的硬件资源下训练出高性能的模型。
Deepseek 的低成本优势:训练与推理
访谈深入探讨了 Deepseek 模型在训练和推理方面实现低成本的原因。
- 训练成本:
- MoE 架构:MoE 架构显著降低了训练过程中的计算量,使得 Deepseek 能够以更少的 GPU 资源完成模型训练。
- MLA 机制:MLA 机制降低了内存需求,进一步提升了 GPU 的利用率。
- 底层优化:底层优化提升了训练效率,缩短了训练时间,降低了 GPU 租赁成本。
- 硬件选择:Deepseek 选择使用在中国出口管制政策下可获得的 H800 GPU,虽然互连带宽受限,但 Deepseek 通过技术优化弥补了这一不足,降低了硬件成本。
- 推理成本:
- 模型效率:MoE 和 MLA 架构使得 Deepseek 模型在推理时更加高效,降低了单位 token 的计算成本。
- 定价策略:Deepseek 采取了极具竞争力的定价策略,R1 模型的 API 价格远低于 OpenAI 的同类产品,这可能是为了快速抢占市场份额,也可能与其低成本优势有关。
用户体验:V3 与 R1 的差异
Nathan Lambert 描述了 V3 和 R1 在用户体验上的差异:
- Deepseek V3:类似于 ChatGPT 等聊天模型,能够快速生成流畅、信息丰富的回答,适用于广泛的问答场景。
- Deepseek R1:R1 的独特之处在于其推理过程的可见性。用户可以看到模型在生成答案之前,会先输出一段链式思考过程,详细解释其如何分解问题、分析信息和得出结论。这种 “思考过程” 的展示,增强了模型的透明度和可信度,也提升了用户对 AI 推理能力的感知。
硬件基础设施:Deepseek 的 GPU 资源
Dylan Patel 分享了他对 Deepseek 硬件资源的分析:
- 强大的 GPU 算力:Deepseek 的母公司 Highflyer 是一家量化交易公司,拥有雄厚的 GPU 算力基础。早在 2021 年,Highflyer 就宣称拥有中国最大的 A100 GPU 集群。
- 持续扩张:Deepseek 在过去几年持续扩张 GPU 资源,据 SemiAnalysis 估计,Deepseek 目前可能拥有约 5 万张 GPU,使其成为全球 AI 领域算力最强的公司之一。
- H800 集群:Deepseek V3 的训练使用了 2000 张 H800 GPU,尽管 H800 在互连带宽上有所限制,但 Deepseek 通过技术优化,充分利用了其计算性能。
出口管制的地缘政治影响
访谈深入探讨了美国对华 AI 芯片出口管制的地缘政治影响。
- 出口管制的逻辑:美国政府实施出口管制,旨在延缓中国在 AI 领域的追赶速度,维护美国的科技领先地位。Dario Amodei 等人认为,超级 AI 技术可能带来巨大的军事优势,因此美国需要限制中国的 AI 发展,以维护全球力量平衡。
- 出口管制的局限性:出口管制难以完全阻止中国 AI 技术的发展。中国公司仍然可以通过技术创新、自主研发和非直接渠道获取算力资源。出口管制的主要影响可能在于限制了中国 AI 技术的应用规模和普及速度。
- 对中国 AI 产业的影响:出口管制促使中国加大在芯片制造和 AI 基础研究领域的投入,加速了本土 AI 产业链的建设。Deepseek 的崛起正是中国 AI 产业自强自立的一个缩影。
- 潜在的风险:出口管制可能加剧地缘政治紧张,甚至可能增加台海冲突的风险。限制中国获得先进技术,可能促使中国采取更激进的策略,以突破技术封锁。
TSMC 与半导体产业的未来
访谈讨论了台积电 (TSMC) 在全球半导体产业中的关键地位,以及美国试图重塑半导体供应链的努力。
- TSMC 的主导地位:TSMC 占据了全球先进制程芯片制造的绝大部分市场份额,几乎所有主要的科技公司都依赖 TSMC 生产芯片。
- 台湾的特殊性:台湾之所以能孕育出 TSMC 这样的巨头,与其历史机遇、人才优势、产业生态以及文化因素密不可分。
- 美国重塑供应链的挑战:美国政府试图通过芯片法案等措施,吸引 TSMC 等企业在美国本土设厂,重振美国半导体制造业。然而,重塑半导体供应链并非易事,需要巨额投资、技术积累、人才培养以及文化转变。
- 地缘政治风险:TSMC 的高度集中在台湾,也带来了地缘政治风险。一旦台海局势紧张,全球半导体供应链将面临巨大冲击。
AGI 时间线与推理模型的未来
访谈探讨了通用人工智能 (AGI) 的发展时间线,以及推理模型在 AGI 发展中的作用。
- AGI 的定义与时间线:专家们对 AGI 的定义和实现时间线存在分歧。Dario Amodei 认为 2026 年可能出现超级 AI,而 Nathan Lambert 则认为 AGI 的实现可能需要更长时间。
- 推理模型的重要性:推理模型被认为是 AGI 发展的重要一步。R1 和 O1 等推理模型的出现,标志着 AI 在逻辑推理、复杂问题解决等方面取得了显著进展。
- 测试时间计算 (Test-Time Compute):推理模型的兴起,使得测试时间计算变得更加重要。为了获得更准确、更可靠的答案,模型需要在推理阶段进行更多的计算,这导致推理成本显著上升。
- 算力需求:AGI 的实现将需要海量的算力资源。OpenAI 等公司正在积极建设超大规模数据中心,以满足未来 AGI 训练和推理的算力需求。
采访对象是 AI2 的模型训练专家 Nathan Lambert 和 Semianalysis 硬件专家 Dylan Patel
三个多小时时长,非常值得听一下。
详细讨论了关于 Deepseek、中美 AI 竞争等关于 AI 的方方面面
整理了一个一千多字的总结,懒得看视频可以看看
Deepseek 的技术突破:V3 和 R1 模型
Nathan Lambert 首先介绍了 Deepseek 发布的两款核心模型:Deepseek V3 和 Deepseek R1。
- Deepseek V3:这是一款混合专家 (Mixture of Experts, MoE) 架构的 Transformer 语言模型,采用了开放权重模式。V3 分为基础模型和指令模型,指令模型经过指令微调等后训练技术,更易于使用,类似于 ChatGPT。V3 的发布时间是 2023 年 12 月底,其性能已可与 GPT-4 和 Llama 405B 等顶尖模型相媲美。
- Deepseek R1:这是一款推理模型,于 V3 发布几周后推出。R1 与 V3 共享许多训练步骤,但在后训练阶段采用了不同的技术,专注于提升模型的推理能力。R1 的独特之处在于其能够展示链式思考 (Chain-of-Thought) 的推理过程,这在以往的模型中较为罕见,引起了 AI 社区乃至更广泛领域的强烈兴趣。
开放权重:AI 领域的开源运动
访谈深入探讨了 “开放权重” 的概念及其在 AI 领域的意义。开放权重指的是模型权重(模型的核心参数)在互联网上公开提供下载,用户可以自由使用和研究。
- 开放权重的定义与许可:开放权重并不等同于完全的 “开源”,它主要指模型权重的公开,而训练数据和代码可能仍然是闭源的。开放权重模型通常附带不同的许可证,规定了用户的使用条款,例如商业用途限制、修改权限等。Deepseek R1 采用了 MIT 许可证,这是一种非常宽松的许可证,允许商业用途和下游修改,体现了 Deepseek 在推动 AI 开放性方面的积极姿态。
- 开放权重的意义:开放权重降低了 AI 技术的门槛,使得更多研究人员、工程师甚至个人开发者能够接触和使用最先进的 AI 模型,促进了 AI 技术的普及和创新。同时,开放权重也增强了用户对数据隐私的控制,用户可以在本地运行模型,无需将数据上传到云端 API,从而降低了数据泄露的风险。
- 与 OpenAI 的对比:Deepseek 的开放权重策略与 OpenAI 的封闭模式形成鲜明对比。Deepseek 的做法对 OpenAI 等公司构成了压力,促使整个行业朝着更加开放的方向发展。同时,Deepseek 在技术报告中公开了大量模型训练的细节,这也推动了 AI 技术的透明度和可操作性。
Deepseek 的技术优势:混合专家架构与多头潜在注意力
Dylan Patel 和 Nathan Lambert 详细分析了 Deepseek 模型在技术上的创新,特别是混合专家架构 (MoE) 和多头潜在注意力 (MLA)。
- 混合专家架构 (MoE):MoE 是一种模型架构,旨在提高模型参数量和计算效率。传统的稠密模型在推理时会激活所有参数,而 MoE 模型则只激活模型中的一部分 “专家” 参数,从而在保持模型容量的同时,降低了计算成本。Deepseek V3 采用了 MoE 架构,拥有 6000 多亿参数,但在推理时只激活约 370 亿参数,大大提高了训练和推理的效率。
- 多头潜在注意力 (MLA):MLA 是 Deepseek 提出的新型注意力机制,旨在降低推理过程中的内存使用量。MLA 通过低秩近似等技术,减少了注意力计算的复杂度,提高了长文本处理的效率。结合 MoE 和 MLA,Deepseek 模型在保证性能的同时,实现了更低的计算和内存成本,使其在推理成本上具有显著优势。
- 底层优化:为了进一步提升效率,Deepseek 团队还进行了大量的底层优化,包括修改 CUDA 代码、定制通信调度等。这些优化深入到 GPU 硬件层面,充分挖掘了硬件的潜力,使得 Deepseek 能够在相对有限的硬件资源下训练出高性能的模型。
Deepseek 的低成本优势:训练与推理
访谈深入探讨了 Deepseek 模型在训练和推理方面实现低成本的原因。
- 训练成本:
- MoE 架构:MoE 架构显著降低了训练过程中的计算量,使得 Deepseek 能够以更少的 GPU 资源完成模型训练。
- MLA 机制:MLA 机制降低了内存需求,进一步提升了 GPU 的利用率。
- 底层优化:底层优化提升了训练效率,缩短了训练时间,降低了 GPU 租赁成本。
- 硬件选择:Deepseek 选择使用在中国出口管制政策下可获得的 H800 GPU,虽然互连带宽受限,但 Deepseek 通过技术优化弥补了这一不足,降低了硬件成本。
- 推理成本:
- 模型效率:MoE 和 MLA 架构使得 Deepseek 模型在推理时更加高效,降低了单位 token 的计算成本。
- 定价策略:Deepseek 采取了极具竞争力的定价策略,R1 模型的 API 价格远低于 OpenAI 的同类产品,这可能是为了快速抢占市场份额,也可能与其低成本优势有关。
用户体验:V3 与 R1 的差异
Nathan Lambert 描述了 V3 和 R1 在用户体验上的差异:
- Deepseek V3:类似于 ChatGPT 等聊天模型,能够快速生成流畅、信息丰富的回答,适用于广泛的问答场景。
- Deepseek R1:R1 的独特之处在于其推理过程的可见性。用户可以看到模型在生成答案之前,会先输出一段链式思考过程,详细解释其如何分解问题、分析信息和得出结论。这种 “思考过程” 的展示,增强了模型的透明度和可信度,也提升了用户对 AI 推理能力的感知。
硬件基础设施:Deepseek 的 GPU 资源
Dylan Patel 分享了他对 Deepseek 硬件资源的分析:
- 强大的 GPU 算力:Deepseek 的母公司 Highflyer 是一家量化交易公司,拥有雄厚的 GPU 算力基础。早在 2021 年,Highflyer 就宣称拥有中国最大的 A100 GPU 集群。
- 持续扩张:Deepseek 在过去几年持续扩张 GPU 资源,据 SemiAnalysis 估计,Deepseek 目前可能拥有约 5 万张 GPU,使其成为全球 AI 领域算力最强的公司之一。
- H800 集群:Deepseek V3 的训练使用了 2000 张 H800 GPU,尽管 H800 在互连带宽上有所限制,但 Deepseek 通过技术优化,充分利用了其计算性能。
出口管制的地缘政治影响
访谈深入探讨了美国对华 AI 芯片出口管制的地缘政治影响。
- 出口管制的逻辑:美国政府实施出口管制,旨在延缓中国在 AI 领域的追赶速度,维护美国的科技领先地位。Dario Amodei 等人认为,超级 AI 技术可能带来巨大的军事优势,因此美国需要限制中国的 AI 发展,以维护全球力量平衡。
- 出口管制的局限性:出口管制难以完全阻止中国 AI 技术的发展。中国公司仍然可以通过技术创新、自主研发和非直接渠道获取算力资源。出口管制的主要影响可能在于限制了中国 AI 技术的应用规模和普及速度。
- 对中国 AI 产业的影响:出口管制促使中国加大在芯片制造和 AI 基础研究领域的投入,加速了本土 AI 产业链的建设。Deepseek 的崛起正是中国 AI 产业自强自立的一个缩影。
- 潜在的风险:出口管制可能加剧地缘政治紧张,甚至可能增加台海冲突的风险。限制中国获得先进技术,可能促使中国采取更激进的策略,以突破技术封锁。
TSMC 与半导体产业的未来
访谈讨论了台积电 (TSMC) 在全球半导体产业中的关键地位,以及美国试图重塑半导体供应链的努力。
- TSMC 的主导地位:TSMC 占据了全球先进制程芯片制造的绝大部分市场份额,几乎所有主要的科技公司都依赖 TSMC 生产芯片。
- 台湾的特殊性:台湾之所以能孕育出 TSMC 这样的巨头,与其历史机遇、人才优势、产业生态以及文化因素密不可分。
- 美国重塑供应链的挑战:美国政府试图通过芯片法案等措施,吸引 TSMC 等企业在美国本土设厂,重振美国半导体制造业。然而,重塑半导体供应链并非易事,需要巨额投资、技术积累、人才培养以及文化转变。
- 地缘政治风险:TSMC 的高度集中在台湾,也带来了地缘政治风险。一旦台海局势紧张,全球半导体供应链将面临巨大冲击。
AGI 时间线与推理模型的未来
访谈探讨了通用人工智能 (AGI) 的发展时间线,以及推理模型在 AGI 发展中的作用。
- AGI 的定义与时间线:专家们对 AGI 的定义和实现时间线存在分歧。Dario Amodei 认为 2026 年可能出现超级 AI,而 Nathan Lambert 则认为 AGI 的实现可能需要更长时间。
- 推理模型的重要性:推理模型被认为是 AGI 发展的重要一步。R1 和 O1 等推理模型的出现,标志着 AI 在逻辑推理、复杂问题解决等方面取得了显著进展。
- 测试时间计算 (Test-Time Compute):推理模型的兴起,使得测试时间计算变得更加重要。为了获得更准确、更可靠的答案,模型需要在推理阶段进行更多的计算,这导致推理成本显著上升。
- 算力需求:AGI 的实现将需要海量的算力资源。OpenAI 等公司正在积极建设超大规模数据中心,以满足未来 AGI 训练和推理的算力需求。