专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
掌上铜山  ·  中国印钞造币集团严正声明! ·  昨天  
掌上铜山  ·  中国印钞造币集团严正声明! ·  昨天  
信安之路  ·  我的首个 AI 智能体,一键关联漏洞 POC ! ·  昨天  
广东应急管理  ·  今日开启! ·  2 天前  
广东应急管理  ·  今日开启! ·  2 天前  
内蒙古自治区应急管理厅  ·  内蒙古自治区应急管理厅顺利完成12盟市应急管 ... ·  3 天前  
福州新闻网  ·  华为,突传消息! ·  3 天前  
福州新闻网  ·  华为,突传消息! ·  3 天前  
51好读  ›  专栏  ›  图灵人工智能

DeepSeek蒸馏技术:AI公司“抄作业”背后的低成本秘密

图灵人工智能  · 公众号  · 互联网安全  · 2025-03-12 06:58

主要观点总结

本文探讨了人工智能开发成本降低的趋势,特别是随着新一代人工智能开发技术的出现,包括蒸馏技术等。文章指出,随着成本降低,人工智能创业公司的启动成本也在下降,这激发了更多的创新。但同时,这也对大型、昂贵且封闭的基础模型构成了威胁。文章还讨论了蒸馏技术的定义、应用、历史演变以及其可能的影响。

关键观点总结

关键观点1: 人工智能开发成本降至新低,激发创新。

随着新一代人工智能开发技术的出现,创办人工智能公司的成本正在降低。计算成本的下降和开源模型的涌现促进了创新。特别是一些小型的开源模型可以在特定任务上表现优秀。

关键观点2: 蒸馏技术是降低成本的关键。

蒸馏技术正在成为人工智能领域的一种重要工具。它是一种古老的技术概念,如今焕发出新的意义。通过模仿其他模型的响应和推理路径,较小的模型能够改进其行为并提高性能。

关键观点3: DeepSeek的R1模型是一个突破性的进展。

DeepSeek发布的R1模型通过蒸馏技术取得了显著的进展。它提供了一个具有竞争力的低成本选择,并在一些任务上展示了超越大模型的性能。

关键观点4: 开源模型在市场上的竞争和挑战。

尽管存在一些问题和挑战,但开源模型的市场前景依然充满竞争和挑战。开放社区和技术选择的选择带来了众多的可能性。

关键观点5: 大型模型的财务前景和开放性问题。

大型且昂贵的封闭模型正面临财务压力和挑战。未来几个月可能会看到更多的尝试采取阻止模型蒸馏等策略的头部AI公司。


正文

点击上方“ 图灵人工智能 ”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

图片

版权声明

版权属于原作者,仅用于学术分享,如有侵权留言删除

来源|BUSINESS INSIDER
作者|Emma Cosgrove and Hugh Langley

编译|杨雪涵

  • 如今构建人工智能的成本正降至新低。
  • 新一代、更廉价的人工智能开发技术让开发者们欢欣鼓舞——但并非是个好兆头。
  • 随着成本触底,大模型构建者们必须证明其昂贵产品的合理性。


创办一家人工智能公司的成本大概是多少?

随着为小型项目创建的大语言模型越来越多,人工智能创业公司的启动成本每天都在降低,计算成本也在不断下降。

此外,一种名为“蒸馏”的技术正在普及,它能够以更低的折扣价格生成相当不错的大语言模型。这在人工智能生态系统的某些领域点燃了创新之火,在另一些领域则带来了挑战。
蒸馏是一项古老的技术概念,如今正焕发出新的重要意义。对大多数人来说,这是个好消息;对少数人来说,这很复杂;对人工智能的未来来说,这很重要。

图片 蒸馏的定义

人工智能开发者和专家们认为,蒸馏的底层逻辑是使用一个模型来改进另一个模型。在蒸馏过程中,首先会让一个较大的教师模型生成响应和推理路径,一个较小的学生模型则模仿其行为。
DeepSeek 因其训练出可与OpenAI媲美的模型而引发轰动,且据报道,其训练成本仅500万美元左右。这一消息引发了股市的恐慌,由于市场预期芯片需求可能下降,英伟达市值一度缩水6000亿美元。(不过,芯片需求下跌尚未真正成为现实。)
一月发布的一项研究显示,加州大学伯克利分校的一个研究团队以不到1000美元的计算成本成功训练出了两个新模型,但这一成果并未引起广泛关注。
二月初,斯坦福大学、华盛顿大学和艾伦人工智能研究所的研究人员在一篇论文中表示,他们能够以更低的成本训练出一个可用的推理模型。
而蒸馏是实现上述所有进展的突破口。
蒸馏是开发者在训练阶段用于改进模型的一种工具,与微调类似,但成本远低于其他方法。开发者往往会使用这两种技术来赋予模型特定的专业知识或技能。
这意味着可以使用另一个模型对像Meta的Llama这样的通用基础模型进行蒸馏,使其成为美国税法的专家。
另一种应用方式是,利用DeepSeek的R1推理模型对Llama进行蒸馏,使其具备更强的推理能力。这意味着,当人工智能需要较长时间回答问题时,它能够验证自身的逻辑,并逐步展示得出答案的过程。
SemiAnalysis的分析师在一月指出,“R1论文中最引人注目的部分或许在于,它展示了如何通过使用推理模型的输出进行微调,并将不具备推理能力的小模型转化为具备推理能力的模型。”
除了极具竞争力的价格(至少在人工智能领域是如此),DeepSeek还发布了使用R1推理模型作为“教师”模型所蒸馏出的其他开源模型版本。DeepSeek的全尺寸模型以及最大版本的Llama模型体积庞大,只能在特定的硬件上运行。而蒸馏技术恰好能解决这个问题。
Touring Capital的普通合伙人Samir Kumar表示:“蒸馏后的模型体积更小,参数更少,内存占用也更低。因此,你不仅可以在手机上运行它,还可以在边缘设备上运行它。”
DeepSeek的突破性进展在于,通过蒸馏技术缩小模型体积后,其性能并未如预期般下降,反而实现了提升。

图片 蒸馏技术:旧瓶装新酒

蒸馏技术最早出现在2015年的一篇论文中,该论文由谷歌人工智能领域的资深人士Jeff Dean、 Geoffrey Hinton 以及谷歌DeepMind研究副总裁Oriol Vinyals共同撰写。
Vinyals近日表示,这篇论文曾被著名的NeurIPS(神经信息处理系统大会)拒稿,原因是认为该技术对该领域的影响不大。然而十年后,蒸馏技术突然间成为人工智能讨论的前沿。
如今蒸馏技术之所以如此强大,与当年相比,是因为现在有大量高质量的开源模型可用作教师模型。
IBM LLM Granite的技术管理总监Kate Soule一月在公司播客“专家混合”中说道:“我认为,DeepSeek通过MIT许可协议发布了一个非常强大的模型——迄今为止最强大的开源模型,实际上正在侵蚀所有大模型提供商的竞争壁垒,这些提供商一直将其最大规模的模型封闭在自家门后。
图片
(LINK:https://www.ibm.com/think/podcasts/mixture-of-experts/openai-o3-deepseek-v3-brundage-marcus-ai-bet?mhsrc=ibmsearch_a&mhq=kate%20soule )

图片 蒸馏技术的边界

Soule表示, Hugging Face 上充斥着Meta的Llama和阿里巴巴的Qwen的蒸馏版本,它们都属于开源的传统模型。
事实上,在Hugging Face上的150万个模型中,有3万个模型的名称中包含“蒸馏”一词,这通常表明该模型是蒸馏模型。但这些蒸馏模型均未登上该网站的排行榜。
正如人们在平价商店购物一样,蒸馏技术在市场上提供了极具性价比的方案,但选择范围相对有限,并且存在一些缺陷。
蒸馏技术能够使模型在某类任务上表现特别出色,但同时可能会削弱其在其他领域的性能。
苹果公司的研究人员试图建立一个“蒸馏scaling law”,该定律能够根据模型的规模、教师模型的规模以及所使用的算力等因素,预测蒸馏人工智能模型的性能。
他们的研究发现,在某些情况下,蒸馏技术的效果优于传统的监督学习,但前提是必须使用高质量的教师模型。此外,教师模型需要比训练中的模型更大,但不能超过某个阈值。一旦教师模型变得过大,性能提升也会随之停止。
但毋庸置疑的是,这项技术能够帮助创始人更快地将想法转化为实际可用的demo,并显著降低人工智能开发的门槛。
多位人工智能专家指出,探索更智能、更小型的模型的捷径,并不一定是对大型且昂贵的基础模型需求的否定。然而,这一趋势确实引发了人们对于开发大模型公司财务前景的质疑。






请到「今天看啥」查看全文


推荐文章
掌上铜山  ·  中国印钞造币集团严正声明!
昨天
掌上铜山  ·  中国印钞造币集团严正声明!
昨天
广东应急管理  ·  今日开启!
2 天前
广东应急管理  ·  今日开启!
2 天前
福州新闻网  ·  华为,突传消息!
3 天前
福州新闻网  ·  华为,突传消息!
3 天前
学习小组  ·  平天下 | 生活从不眷恋因循守旧者
7 年前
青松医药集团  ·  【关注】3省1300家药商生死攸关!
7 年前