专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

DeepSeek蒸馏技术：AI公司“抄作业”背后的低成本秘密

图灵人工智能 · 公众号 · 互联网安全 · 2025-03-12 06:58

主要观点总结

本文探讨了人工智能开发成本降低的趋势，特别是随着新一代人工智能开发技术的出现，包括蒸馏技术等。文章指出，随着成本降低，人工智能创业公司的启动成本也在下降，这激发了更多的创新。但同时，这也对大型、昂贵且封闭的基础模型构成了威胁。文章还讨论了蒸馏技术的定义、应用、历史演变以及其可能的影响。

关键观点总结

关键观点1: 人工智能开发成本降至新低，激发创新。

随着新一代人工智能开发技术的出现，创办人工智能公司的成本正在降低。计算成本的下降和开源模型的涌现促进了创新。特别是一些小型的开源模型可以在特定任务上表现优秀。

关键观点2: 蒸馏技术是降低成本的关键。

蒸馏技术正在成为人工智能领域的一种重要工具。它是一种古老的技术概念，如今焕发出新的意义。通过模仿其他模型的响应和推理路径，较小的模型能够改进其行为并提高性能。

关键观点3: DeepSeek的R1模型是一个突破性的进展。

DeepSeek发布的R1模型通过蒸馏技术取得了显著的进展。它提供了一个具有竞争力的低成本选择，并在一些任务上展示了超越大模型的性能。

关键观点4: 开源模型在市场上的竞争和挑战。

尽管存在一些问题和挑战，但开源模型的市场前景依然充满竞争和挑战。开放社区和技术选择的选择带来了众多的可能性。

关键观点5: 大型模型的财务前景和开放性问题。

大型且昂贵的封闭模型正面临财务压力和挑战。未来几个月可能会看到更多的尝试采取阻止模型蒸馏等策略的头部AI公司。

正文

点击上方“ 图灵人工智能 ”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

版权属于原作者，仅用于学术分享，如有侵权留言删除

来源｜BUSINESS INSIDER

作者｜Emma Cosgrove and Hugh Langley

编译｜杨雪涵

如今构建人工智能的成本正降至新低。
新一代、更廉价的人工智能开发技术让开发者们欢欣鼓舞——但并非是个好兆头。
随着成本触底，大模型构建者们必须证明其昂贵产品的合理性。

创办一家人工智能公司的成本大概是多少？

随着为小型项目创建的大语言模型越来越多，人工智能创业公司的启动成本每天都在降低，计算成本也在不断下降。

此外，一种名为“蒸馏”的技术正在普及，它能够以更低的折扣价格生成相当不错的大语言模型。这在人工智能生态系统的某些领域点燃了创新之火，在另一些领域则带来了挑战。

蒸馏是一项古老的技术概念，如今正焕发出新的重要意义。对大多数人来说，这是个好消息；对少数人来说，这很复杂；对人工智能的未来来说，这很重要。

蒸馏的定义

人工智能开发者和专家们认为，蒸馏的底层逻辑是使用一个模型来改进另一个模型。在蒸馏过程中，首先会让一个较大的教师模型生成响应和推理路径，一个较小的学生模型则模仿其行为。

DeepSeek 因其训练出可与OpenAI媲美的模型而引发轰动，且据报道，其训练成本仅500万美元左右。这一消息引发了股市的恐慌，由于市场预期芯片需求可能下降，英伟达市值一度缩水6000亿美元。（不过，芯片需求下跌尚未真正成为现实。）

一月发布的一项研究显示，加州大学伯克利分校的一个研究团队以不到1000美元的计算成本成功训练出了两个新模型，但这一成果并未引起广泛关注。

二月初，斯坦福大学、华盛顿大学和艾伦人工智能研究所的研究人员在一篇论文中表示，他们能够以更低的成本训练出一个可用的推理模型。

而蒸馏是实现上述所有进展的突破口。

蒸馏是开发者在训练阶段用于改进模型的一种工具，与微调类似，但成本远低于其他方法。开发者往往会使用这两种技术来赋予模型特定的专业知识或技能。

这意味着可以使用另一个模型对像Meta的Llama这样的通用基础模型进行蒸馏，使其成为美国税法的专家。

另一种应用方式是，利用DeepSeek的R1推理模型对Llama进行蒸馏，使其具备更强的推理能力。这意味着，当人工智能需要较长时间回答问题时，它能够验证自身的逻辑，并逐步展示得出答案的过程。

SemiAnalysis的分析师在一月指出，“R1论文中最引人注目的部分或许在于，它展示了如何通过使用推理模型的输出进行微调，并将不具备推理能力的小模型转化为具备推理能力的模型。”

除了极具竞争力的价格（至少在人工智能领域是如此），DeepSeek还发布了使用R1推理模型作为“教师”模型所蒸馏出的其他开源模型版本。DeepSeek的全尺寸模型以及最大版本的Llama模型体积庞大，只能在特定的硬件上运行。而蒸馏技术恰好能解决这个问题。

Touring Capital的普通合伙人Samir Kumar表示：“蒸馏后的模型体积更小，参数更少，内存占用也更低。因此，你不仅可以在手机上运行它，还可以在边缘设备上运行它。”

DeepSeek的突破性进展在于，通过蒸馏技术缩小模型体积后，其性能并未如预期般下降，反而实现了提升。

蒸馏技术：旧瓶装新酒

蒸馏技术最早出现在2015年的一篇论文中，该论文由谷歌人工智能领域的资深人士Jeff Dean、 Geoffrey Hinton 以及谷歌DeepMind研究副总裁Oriol Vinyals共同撰写。

Vinyals近日表示，这篇论文曾被著名的NeurIPS（神经信息处理系统大会）拒稿，原因是认为该技术对该领域的影响不大。然而十年后，蒸馏技术突然间成为人工智能讨论的前沿。

如今蒸馏技术之所以如此强大，与当年相比，是因为现在有大量高质量的开源模型可用作教师模型。

IBM LLM Granite的技术管理总监Kate Soule一月在公司播客“专家混合”中说道：“我认为，DeepSeek通过MIT许可协议发布了一个非常强大的模型——迄今为止最强大的开源模型，实际上正在侵蚀所有大模型提供商的竞争壁垒，这些提供商一直将其最大规模的模型封闭在自家门后。

(LINK:https://www.ibm.com/think/podcasts/mixture-of-experts/openai-o3-deepseek-v3-brundage-marcus-ai-bet?mhsrc=ibmsearch_a&mhq=kate%20soule )

蒸馏技术的边界

Soule表示， Hugging Face 上充斥着Meta的Llama和阿里巴巴的Qwen的蒸馏版本，它们都属于开源的传统模型。

事实上，在Hugging Face上的150万个模型中，有3万个模型的名称中包含“蒸馏”一词，这通常表明该模型是蒸馏模型。但这些蒸馏模型均未登上该网站的排行榜。

正如人们在平价商店购物一样，蒸馏技术在市场上提供了极具性价比的方案，但选择范围相对有限，并且存在一些缺陷。

蒸馏技术能够使模型在某类任务上表现特别出色，但同时可能会削弱其在其他领域的性能。

苹果公司的研究人员试图建立一个“蒸馏scaling law”，该定律能够根据模型的规模、教师模型的规模以及所使用的算力等因素，预测蒸馏人工智能模型的性能。

他们的研究发现，在某些情况下，蒸馏技术的效果优于传统的监督学习，但前提是必须使用高质量的教师模型。此外，教师模型需要比训练中的模型更大，但不能超过某个阈值。一旦教师模型变得过大，性能提升也会随之停止。

但毋庸置疑的是，这项技术能够帮助创始人更快地将想法转化为实际可用的demo，并显著降低人工智能开发的门槛。

多位人工智能专家指出，探索更智能、更小型的模型的捷径，并不一定是对大型且昂贵的基础模型需求的否定。然而，这一趋势确实引发了人们对于开发大模型公司财务前景的质疑。