专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

真正的LLM Agent

Datawhale  · 公众号  ·  · 2025-03-23 13:35

正文

Datawhale分享

作者: Alexander Doria

翻译:宝玉AI,整理:Founder Park

知名 AI 工程师、Pleias 的联合创始人 Alexander Doria 最近针对 DeepResearch、Agent 以及 Claude Sonnet 3.7 发表了两篇文章,颇为值得一读,尤其是 Agent 智能体的部分。

Alexander的观点很明确: 未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。 还拿目前很火的 Manus 作为案例:他认为像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。

而下一代真正的 LLM 智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现。文章举例了 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7,说明未来智能体会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。这种转变意味着智能体设计的核心复杂性将转移到模型训练阶段,从根本上提升模型的自主推理能力,最终彻底颠覆目前的应用层生态。



01

模型即产品(The Model is the Product)

过去几年里,人们不断猜测下一轮 AI 的发展方向:会是智能体(Agents)?推理模型(Reasoners)?还是真正的多模态(Multimodality)?

但现在,是时候下结论了:

AI 模型本身,就是未来的产品。

目前,无论是研究还是市场的发展趋势,都在推动这个方向。

为什么这么说?

  • 通用型模型的扩展,遇到了瓶颈。 GPT-4.5 发布时传递的最大信息就是: 模型的能力提升只能呈线性增长,但所需算力却在指数式地飙升。 尽管过去两年 OpenAI 在训练和基础设施方面进行了大量优化,但仍然无法以可接受的成本推出这种超级巨型模型。

  • 定向训练(Opinionated training)的效果,远超预期 。强化学习与推理能力的结合,正在让模型迅速掌握具体任务。这种能力,既不同于传统的机器学习,也不是基础大模型,而是某种神奇的第三形态。比如一些极小规模的模型突然在数学能力上变得惊人强大;编程模型不再只是简单地产生代码,甚至能够自主管理整个代码库;又比如 Claude 在几乎没有专门训练、仅靠非常贫乏的信息环境下,竟然也能玩宝可梦。

  • 推理(Inference)的成本,正在极速下降 。DeepSeek 最新的优化成果显示,目前全球所有可用的 GPU 资源,甚至足以支撑地球上每个人每天调用一万个顶尖模型的 token。而实际上,目前市场根本不存在这么大的需求。简单卖 token 赚钱的模式已经不再成立,模型提供商必须向价值链更高层发展。

但这个趋势也带来了一些尴尬,因为所有投资人都将宝压在了「应用层」上。然而,在下一阶段的 AI 革命中,最先被自动化、被颠覆的,极有可能就是应用层。


02

下一代 AI 模型的形态

过去几周,我们看到了两个典型的「模型即产品」的案例:OpenAI 推出的 DeepResearch 和 Anthropic 推出的 Claude Sonnet 3.7。

关于 DeepResearch,很多人存在误解,这种误解随着大量仿制版本(开源和闭源)的出现,变得更严重了。实际上,OpenAI 并非简单地在 O3 模型外面套了层壳,而是从零开始训练了一个全新的模型*。

*OpenAI 的官方文档:https://cdn.openai.com/deep-research-system-card.pdf

这个模型能直接在内部完成搜索任务,根本不需要外部调用、提示词或人工流程干预:

「该模型通过强化学习,自主掌握了核心的网页浏览能力(比如搜索、点击、滚动、理解文件)……它还能自主推理,通过大量网站的信息合成,直接找到特定的内容或生成详细的报告。」

DeepResearch 不是标准的大语言模型(LLM),更不是普通的聊天机器人。它是一种 全新的研究型语言模型(Research Language Model) ,专为端到端完成搜索类任务而设计。任何认真用过这个模型的人都会发现,它生成的报告篇幅更长,结构严谨,内容背后的信息分析过程也极为清晰。

相比之下,正如 Hanchung Lee 所指出*的,其他的 DeepSearch 产品,包括 Perplexity 和 Google 版,其实不过就是普通模型加了一点额外的小技巧:

*https://leehanchung.github.io/blogs/2025/02/26/deep-research/

「虽然谷歌的 Gemini 和 Perplexity 的聊天助手也宣称提供了『深度搜索』的功能,但他们既没有公开详细的优化过程,也没有给出真正有分量的量化评估……因此我们只能推测,它们的微调工作并不显著。」

Anthropic 的愿景也越来越明确。去年 12 月,他们给出了一个颇有争议,但我认为相当准确的「智能体」定义*。 与 DeepSearch 类似,一个真正的智能体必须在内部独立完成任务: 「智能体能够动态地决定自己的执行流程和工具使用方式,自主掌控任务的完成过程。」

*Anthropic 的定义:https://www.anthropic.com/research/building-effective-agents

但市面上大多数所谓的智能体公司,目前做的根本不是智能体,而是「工作流」(workflows):

也就是用预先定义好的代码路径,串联 LLM 与其他工具。这种工作流仍然有一定价值,尤其是在特定领域的垂直应用上。但对于真正从事前沿研究的人来说,很明显: 未来真正的突破,必须是直接从模型层面入手,重新设计 AI 系统。

Claude 3.7 的发布,就是一个实实在在的证明:Anthropic 专门以复杂的编程任务为核心训练目标,让大量原本使用工作流模型(比如 Devin)的产品,在软件开发(SWE)相关的评测中表现大幅提升。

再举一个我们公司 Pleias 更小规模的例子:

我们目前正在探索如何彻底自动化 RAG(基于检索的生成系统)。

现阶段的 RAG 系统由许多复杂但脆弱的流程串联而成:请求路由、文档切分、重排序、请求解释、请求扩展、来源上下文理解、搜索工程等等。但随着模型训练技术的进步,我们发现完全有可能把这些复杂流程整合到两个相互关联的模型中:

一个专门负责数据准备,另一个专门负责搜索、检索、生成报告。这种方案需要设计一套非常复杂的合成数据管道,以及完全全新的强化学习奖励函数。

这是真正的模型训练,真正的研究。


03

这一切对我们意味着什么?

意味着复杂性的转移。

通过训练阶段预先应对大量可能的行动和各种极端情况,部署时将变得异常简单。但在这个过程中,绝大部分价值都将被模型训练方创造,并且最终被模型训练方所捕获。

简单来说,Anthropic 想要颠覆并替代目前的那些所谓「智能体」工作流,比如像 llama index 的这种典型系统:

Image

Llama Index Basic Agent

转变为这种完全模型化的方案:

Image

Claude Agent


04

模型供应商与应用开发商

的蜜月期结束了

目前 AI 的大趋势已经明朗:

未来 2-3 年内,所有闭源 AI 大模型提供商都会停止向外界提供 API 服务,而将转为直接提供模型本身作为产品。

这种趋势并非猜测,而是现实中的多重信号都指向了这一点。 Databricks 公司生成式 AI 副总裁 Naveen Rao 也做了清晰的预测:

在未来两到三年内,所有闭源的 AI 模型提供商都会停止销售 API 服务。

简单来说,API 经济即将走向终结。 模型提供商与应用层(Wrapper)之间原本的蜜月期,已彻底结束了。

市场方向可能的变化:

  • Claude Code 和 DeepSearch都是这种趋势的早期技术与产品探索 。你可能注意到,DeepSearch 并未提供 API 接口,仅作为 OpenAI 高级订阅的增值功能出现;Claude Code 则只是一个极为简单的终端整合。这清晰表明,模型厂商已开始跳过第三方应用层,直接创造用户价值。

  • 应用层企业开始秘密地布局模型训练能力。 当前成功的应用型公司,也都意识到了这种威胁,悄悄尝试转型。例如 Cursor 拥有一款自主开发的小型代码补全模型;WindSurf 内部开发了 Codium 这样一款低成本的代码模型;Perplexity 此前一直依靠内部分类器进行请求路由,最近更是转型训练了自己的 DeepSeek 变体模型用于搜索用途。

  • 当前成功的「应用套壳商」(Wrappers)实际上处于困境之中:他们要么自主训练模型,要么就等着被上游大模型彻底取代。他们现在所做的事情,本质上都是为上游大模型厂商进行免费的市场调研、数据设计和数据生成。

接下来发生什么还不好说。成功的应用套壳商现在陷入两难处境:「自己训练模型」或者「被别人拿来训练模型」。据我所知,目前投资者对「训练模型」极为排斥,甚至使得一些公司不得不隐藏他们最具价值的训练能力,像 Cursor 的小模型和 Codium 的文档化至今都极为有限。


05

市场完全没有计入

强化学习(RL)的潜力

目前 AI 投资领域存在一个普遍的问题:所有投资几乎都是高度相关的。

现阶段几乎所有的 AI 投资机构,都抱持以下一致的想法:

  • 封闭 AI 厂商将长期提供 API;

  • 应用层是 AI 变现的最佳途径;

  • 训练任何形式的模型(不论预训练还是强化学习)都是在浪费资源;

  • 所有行业(包括监管严格的领域)都会继续长期依赖外部 AI 提供商。

但我不得不说,这些判断日益看起来过于冒险,甚至是明显的市场失灵。

尤其是在最近强化学习(RL)技术取得突破的情况下,市场未能正确对强化学习的巨大潜力进行定价。

眼下,「强化学习」的威力根本没有被资本市场准确评估和体现。

从经济学角度看,在全球经济逐渐迈入衰退背景下,能够进行模型训练的公司具有巨大的颠覆潜力。然而很奇怪的是,模型训练公司却根本无法顺利获得投资。以西方的新兴 AI 训练公司 Prime Intellect 为例,它拥有明确的技术实力,有潜力发展为顶级 AI 实验室,但即便如此,其融资仍面临巨大困难。

纵观欧美,真正具备训练能力的新兴 AI 公司屈指可数:

Prime Intellect、EleutherAI、Jina、Nous、HuggingFace 训练团队(规模很小)、Allen AI 等少数学术机构,加上一些开源基础设施的贡献者,基本涵盖了整个西方训练基础设施的建设和支持工作。

而在欧洲,据我所知,至少有 7-8 个 LLM 项目正在使用 Common Corpus 进行模型训练。

然而,资本却对这些真正能够训练模型的团队冷眼旁观。

「训练」成为被忽略的价值洼地

最近,甚至连 OpenAI 内部也对目前硅谷创业生态缺乏「垂直强化学习」(Vertical RL)表达了明显的不满。


图片


我相信,这种信息来自于 Sam Altman 本人,接下来可能会在 YC 新一批孵化项目中有所体现。







请到「今天看啥」查看全文