专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
汇易咨询  ·  成本支撑边际增强与替代需求萎缩博弈加剧 ... ·  19 小时前  
北京吃货小分队  ·  北京「规模最大」新地标 · 终于开放了 ·  5 天前  
北京晚报  ·  北京这6名小孩哥,必须表扬! ·  3 天前  
51好读  ›  专栏  ›  Dots机构投资者社区

自己训练模型才能掌握未来?一股脑押注应用层或许值得警惕

Dots机构投资者社区  · 公众号  ·  · 2025-03-09 08:15

正文

本文转自微信公众号“机器之心”,作者:机器之心。

作者: Alexander Doria

机器之心编译

模型即产品?


「所有投资者都在押注应用层…… 对训练能力存在强烈的负面偏见…… 我担心这是一场冒险赌注和市场误判。」这是一篇标题为「The Model is the Product(模型即产品)」的文章的主要观点。


image.png


文章指出,当前很多企业都以集成商的形式在提供 AI 服务,也就是调用 OpenAI、Anthropic 等大公司模型的 API。未来,这将是一种非常危险的做法,因为这些大公司掌握了模型更新的主动权,未来他们也将进入应用层,并有可能在未来 2-3 年内停止销售 API。如果按照这种趋势发展,这些公司将拿走大部分利润,而现在的集成商实际上在为他们做免费的市场调研,甚至是免费的数据设计和生成服务。


他还举了一些例子来证明自己的观点,比如 OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。DeepSearch 不通过 API 提供,只用于为高级订阅创造价值。Claude 3.7 在 Claude Code 中能完美运行,但 Cursor 却在集成它时遇到困难,已经有一些高端用户因此取消了他们的 Cursor 订阅。


因此,集成商们现在面临一个艰难选择:到底是自己训练模型,还是用别人已经训练好的模型。作者显然更倾向于前者。但现在的投资现状是:选择自己训练模型没有那么容易融资。


文章作者 Alexander Doria 是 AI 科技公司 Pleias 的联合创始人,同时也是一位专注于大语言模型(LLM)研究的机器学习工程师。


以下是博客原文:


模型即产品


过去几年里,关于 AI 发展下一个周期会是什么,人们有很多猜测:Agent(智能体)?Reasoner(推理器)?真正的多模态?


我认为是时候下定论了:模型即产品。当前研究和市场发展的所有因素都指向这个方向。


  • 通用模型的 scaling 正在停滞。这正是 GPT-4.5 发布背后传达的信息:能力在线性增长,而计算成本却呈几何曲线增长。即使过去两年训练和基础设施效率的提升不小,OpenAI 也无法部署这个巨型模型 —— 至少定价远远不是用户能承受的。
  • 某些已有方法的训练效果远超预期。强化学习和推理的结合意味着模型突然开始学习任务。这不是机器学习,也不是基础模型,而是一种秘密的第三种东西。甚至是小模型的数学能力也突然变得好得吓人。这让编程模型不再仅仅生成代码,而是自己管理整个代码库。这能让 Claude 在上下文信息很少且没有专门训练的情况下玩《宝可梦》游戏。
  • 推理成本急剧下降。DeepSeek 最近的优化意味着所有可用的 GPU 加起来可以支撑全球用户每天让前沿模型输出 10k token。我们现在还远没有这么大的需求。对模型提供商来说,卖 token 赚钱的思路不再有效了:他们必须向价值链的更高处移动。


这也是一个令人不安的方向。 所有投资者都在押注应用层。在 AI 进化的下一阶段,应用层可能是最先被自动化和颠覆的


未来模型的形态


过去几周,我们看到了 两个「模型即产品」的重要新案例:OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。


我读到了很多关于 DeepResearch 的误解,而这些误解并没有因为开源和闭源版本的克隆增多而得到澄清。OpenAI 并没有在 O3 之上构建一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,无需任何外部调用、提示或编排:

该模型学习了核心浏览能力(搜索、点击、滚动、解释文件)(...)以及如何通过这些浏览任务的强化学习训练来推理综合大量网站,找到特定信息或撰写全面报告。


DeepResearch 不是标准的 LLM,也不是标准的聊天机器人。它是一种新形式的研究语言模型,专为端到端执行搜索任务而设计。对认真使用它的人来说,区别立即变得明显:模型生成具有一致结构和底层源分析过程的长篇报告。相比之下,正如 Hanchung Lee 强调的,所有其他 DeepSearch—— 包括 Perplexity 和 Google 的变体只是你通常的模型加上一些调整:


Google 的 Gemini 和 Perplexity 的聊天助手也提供「Deep Research」功能,但两者都没有发表任何关于他们如何优化模型或系统来完成任务的文献,也没有任何实质性的定量评估(...)我们将假设所做的微调工作并不重要。


Anthropic 一直在更清晰地阐述他们当前的愿景。在 12 月,他们引入了一个有争议但在我看来是正确的智能体模型定义。类似于 DeepSearch,智能体必须在内部执行目标任务:它们「动态指导自己的处理过程和工具使用,保持对如何完成任务的控制」。


大多数智能体初创公司目前正在构建的不是智能体,而是工作流,即「通过预定义的代码路径编排 LLM 和工具的系统」。工作流仍可能带来一些价值,尤其是在垂直领域的适应性方面。然而, 对于那些在大型实验室工作的人来说,一个显而易见的事实是,所有关于自主系统的重大进展都将首先通过重新设计模型本身来实现


我们在 Claude 3.7 发布时看到了这方面的一个非常具体的演示,这是一个主要为复杂代码用例而训练的模型。所有像 Devin 这样的工作流适应在 SWE 基准测试上都有了重大提升。


再举一个规模小得多的例子:在 Pleias,我们目前正在研究如何自动化 RAG。现有的 RAG 系统是由许多相互关联但又脆弱的工作流组成的,比如路由、分块、重排序、查询解析、查询扩展、来源上下文化、搜索工程化等。随着训练技术栈的不断发展,我们真的有可能将所有这些流程整合到两个相互关联但又独立的模型中,一个用于数据准备,另一个用于搜索 / 检索 / 报告生成。这需要一个精心设计的合成数据管道,以及为强化学习设计的全新奖励函数。这才是真正的训练,真正的研究。







请到「今天看啥」查看全文