主要观点总结
本文探讨了人工智能开发成本降低的趋势,特别是随着新一代人工智能开发技术的出现,包括蒸馏技术等。文章指出,随着成本降低,人工智能创业公司的启动成本也在下降,这激发了更多的创新。但同时,这也对大型、昂贵且封闭的基础模型构成了威胁。文章还讨论了蒸馏技术的定义、应用、历史演变以及其可能的影响。
关键观点总结
关键观点1: 人工智能开发成本降至新低,激发创新。
随着新一代人工智能开发技术的出现,创办人工智能公司的成本正在降低。计算成本的下降和开源模型的涌现促进了创新。特别是一些小型的开源模型可以在特定任务上表现优秀。
关键观点2: 蒸馏技术是降低成本的关键。
蒸馏技术正在成为人工智能领域的一种重要工具。它是一种古老的技术概念,如今焕发出新的意义。通过模仿其他模型的响应和推理路径,较小的模型能够改进其行为并提高性能。
关键观点3: DeepSeek的R1模型是一个突破性的进展。
DeepSeek发布的R1模型通过蒸馏技术取得了显著的进展。它提供了一个具有竞争力的低成本选择,并在一些任务上展示了超越大模型的性能。
关键观点4: 开源模型在市场上的竞争和挑战。
尽管存在一些问题和挑战,但开源模型的市场前景依然充满竞争和挑战。开放社区和技术选择的选择带来了众多的可能性。
关键观点5: 大型模型的财务前景和开放性问题。
大型且昂贵的封闭模型正面临财务压力和挑战。未来几个月可能会看到更多的尝试采取阻止模型蒸馏等策略的头部AI公司。
正文
您想知道的人工智能干货,第一时间送达
版权声明
作者|Emma Cosgrove and Hugh Langley
编译|杨雪涵
-
-
新一代、更廉价的人工智能开发技术让开发者们欢欣鼓舞——但并非是个好兆头。
-
随着成本触底,大模型构建者们必须证明其昂贵产品的合理性。
创办一家人工智能公司的成本大概是多少?
随着为小型项目创建的大语言模型越来越多,人工智能创业公司的启动成本每天都在降低,计算成本也在不断下降。
此外,一种名为“蒸馏”的技术正在普及,它能够以更低的折扣价格生成相当不错的大语言模型。这在人工智能生态系统的某些领域点燃了创新之火,在另一些领域则带来了挑战。
蒸馏是一项古老的技术概念,如今正焕发出新的重要意义。对大多数人来说,这是个好消息;对少数人来说,这很复杂;对人工智能的未来来说,这很重要。
蒸馏的定义
人工智能开发者和专家们认为,蒸馏的底层逻辑是使用一个模型来改进另一个模型。在蒸馏过程中,首先会让一个较大的教师模型生成响应和推理路径,一个较小的学生模型则模仿其行为。
DeepSeek
因其训练出可与OpenAI媲美的模型而引发轰动,且据报道,其训练成本仅500万美元左右。这一消息引发了股市的恐慌,由于市场预期芯片需求可能下降,英伟达市值一度缩水6000亿美元。(不过,芯片需求下跌尚未真正成为现实。)
一月发布的一项研究显示,加州大学伯克利分校的一个研究团队以不到1000美元的计算成本成功训练出了两个新模型,但这一成果并未引起广泛关注。
二月初,斯坦福大学、华盛顿大学和艾伦人工智能研究所的研究人员在一篇论文中表示,他们能够以更低的成本训练出一个可用的推理模型。
蒸馏是开发者在训练阶段用于改进模型的一种工具,与微调类似,但成本远低于其他方法。开发者往往会使用这两种技术来赋予模型特定的专业知识或技能。
这意味着可以使用另一个模型对像Meta的Llama这样的通用基础模型进行蒸馏,使其成为美国税法的专家。
另一种应用方式是,利用DeepSeek的R1推理模型对Llama进行蒸馏,使其具备更强的推理能力。这意味着,当人工智能需要较长时间回答问题时,它能够验证自身的逻辑,并逐步展示得出答案的过程。
SemiAnalysis的分析师在一月指出,“R1论文中最引人注目的部分或许在于,它展示了如何通过使用推理模型的输出进行微调,并将不具备推理能力的小模型转化为具备推理能力的模型。”
除了极具竞争力的价格(至少在人工智能领域是如此),DeepSeek还发布了使用R1推理模型作为“教师”模型所蒸馏出的其他开源模型版本。DeepSeek的全尺寸模型以及最大版本的Llama模型体积庞大,只能在特定的硬件上运行。而蒸馏技术恰好能解决这个问题。
Touring Capital的普通合伙人Samir Kumar表示:“蒸馏后的模型体积更小,参数更少,内存占用也更低。因此,你不仅可以在手机上运行它,还可以在边缘设备上运行它。”
DeepSeek的突破性进展在于,通过蒸馏技术缩小模型体积后,其性能并未如预期般下降,反而实现了提升。
蒸馏技术:旧瓶装新酒
蒸馏技术最早出现在2015年的一篇论文中,该论文由谷歌人工智能领域的资深人士Jeff Dean、
Geoffrey Hinton
以及谷歌DeepMind研究副总裁Oriol Vinyals共同撰写。
Vinyals近日表示,这篇论文曾被著名的NeurIPS(神经信息处理系统大会)拒稿,原因是认为该技术对该领域的影响不大。然而十年后,蒸馏技术突然间成为人工智能讨论的前沿。
如今蒸馏技术之所以如此强大,与当年相比,是因为现在有大量高质量的开源模型可用作教师模型。
IBM LLM Granite的技术管理总监Kate Soule一月在公司播客“专家混合”中说道:“我认为,DeepSeek通过MIT许可协议发布了一个非常强大的模型——迄今为止最强大的开源模型,实际上正在侵蚀所有大模型提供商的竞争壁垒,这些提供商一直将其最大规模的模型封闭在自家门后。
(LINK:https://www.ibm.com/think/podcasts/mixture-of-experts/openai-o3-deepseek-v3-brundage-marcus-ai-bet?mhsrc=ibmsearch_a&mhq=kate%20soule
)
蒸馏技术的边界
Soule表示,
Hugging Face
上充斥着Meta的Llama和阿里巴巴的Qwen的蒸馏版本,它们都属于开源的传统模型。
事实上,在Hugging Face上的150万个模型中,有3万个模型的名称中包含“蒸馏”一词,这通常表明该模型是蒸馏模型。但这些蒸馏模型均未登上该网站的排行榜。
正如人们在平价商店购物一样,蒸馏技术在市场上提供了极具性价比的方案,但选择范围相对有限,并且存在一些缺陷。
蒸馏技术能够使模型在某类任务上表现特别出色,但同时可能会削弱其在其他领域的性能。
苹果公司的研究人员试图建立一个“蒸馏scaling law”,该定律能够根据模型的规模、教师模型的规模以及所使用的算力等因素,预测蒸馏人工智能模型的性能。
他们的研究发现,在某些情况下,蒸馏技术的效果优于传统的监督学习,但前提是必须使用高质量的教师模型。此外,教师模型需要比训练中的模型更大,但不能超过某个阈值。一旦教师模型变得过大,性能提升也会随之停止。
但毋庸置疑的是,这项技术能够帮助创始人更快地将想法转化为实际可用的demo,并显著降低人工智能开发的门槛。
多位人工智能专家指出,探索更智能、更小型的模型的捷径,并不一定是对大型且昂贵的基础模型需求的否定。然而,这一趋势确实引发了人们对于开发大模型公司财务前景的质疑。