专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
量子位  ·  14B ... ·  昨天  
黄建同学  ·  Manus 开发团队成员的回复:这并不复杂 ... ·  2 天前  
爱可可-爱生活  ·  HieroLM: ... ·  2 天前  
51好读  ›  专栏  ›  新智元

OpenAI深夜大招暴打Manus!智能体全家桶杀器一统API,4行代码轻松上手

新智元  · 公众号  · AI  · 2025-03-12 10:25

正文



新智元报道

编辑:编辑部 HNYZ
【新智元导读】 OpenAI给开发者的深夜大礼:一套全新API和工具上线,智能体的开发更简单了!从此无需从不同来源拼凑各种底层API。一个全新API、三个内置工具,以及一个开源SDK,让智能体开发进入next level。

Manus掀起的智能体风暴,再次逼急了OpenAI。
凌晨,OpenAI突然开启线上直播,正式放出开发者自主构建智能体的大礼包——

一个全新API、三个内置工具,以及一个开源SDK。

具体包括:
  • 全新Responses API⁠ 将Chat Completions API简单性与Assistants API工具使用功能相结合,用于构建智能体
  • 内置三大工具 网络搜索⁠、文件搜索⁠和计算机使用
  • 全新 Agents SDK⁠: 用于编排单智能体和多智能体工作流程
  • 集成可视化工具: 用于追踪和检查智能体工作流程执行情况

以往,开发者构建一款智能体应用,需要从不同来源拼凑各种底层API。
这个过程不仅耗时耗力,就像搭积木一样「摇摇欲坠」,如果一个环节出错,搭出的智能体系统随时可能崩盘。
而现在,OpenAI推出的Responses API和一系列工具,直接简化了核心智能体的逻辑、编排和交互。
与o1 Pro、Deep Research、Operator不同,Responses API是一个「统一API」,可支持多轮交互和工具调用。
其中,「网络搜索工具」可让模型即时访问互联网信息,与驱动ChatGPT Search是同一个工具,在Simple QA中,经过微调后的GPT-4o拿下90%高分,GPT-4o mini得分为88%。
「文件搜索工具」曾在Assistance API中推出,便捷上传、分块、嵌入文档,以及RAG。现在,新增了两个新功能「元数据过滤」和「直接搜索端点」。
「计算机使用工具」在API中被称为Operator,并配备了专门的计算机使用模型(CUA),跟ChatGPT中的Operator使用的是同一款。
结果显示,模型在多项基准测试中刷新了SOTA——OSWorld中成功率38.1%,在WebArena中达到58.1%,在WebVoyager基于网络的交互中达到87%。
从今天开始,计算机使用工具研究预览版,将向3-5级⁠的特定开发者开放,输入价格3美元/每百万个token,输出价格12美元/每百万个token。
另外,奥特曼开源的诺言终于兑现了一部分——Agents SDK⁠,简化多智能体工作流管理。
OpenAI还预告,未来几周和几个月里,还计划发布更多工具和功能,进一步简化和加速在平台上构建智能体应用。

OpenAI现场演示:几大全新工具,构建更强大智能体

ChatGPT中已经推出的两个智能体,我们并不陌生。一个是可以浏览网页、完成各种任务的Operator,一个是能针对任何主题生成详细报告的Deep Research。
但现在,OpenAI希望把这些工具和更多工具以API的形式发布给开发者。
过去一年里,OpenAI也已经推出了高级推理、多模态交互、新的安全技术等全新功能,这就已经打好了构建智能体所需要的复杂多步骤任务的基础。
然而,有很多客户却反馈说,这些功能很难直接转换为可以直接工作的智能体,而是需要大量的大量的提示词迭代和自定义编排逻辑,而且缺乏足够的可见性和内置支持。
而今天这套全新工具,将把智能体构建带入next level。
首先介绍的,就是 网络搜索 工具
它允许OpenAI的模型访问互联网上的信息,保证用户得到的结果是最新的和准确的。
网络搜索工具与驱动ChatGPT Search的是同一个工具,它在底层由一个经过微调的模型驱动,此模型就是经过微调的GPT-4o 或4o mini。
它非常擅长处理从网络获取的大量数据,找到相关的信息片段,并在响应中清晰地引用它们。
在Simple QA中,GPT-4o达到了90%的最佳水平。
接下来介绍的,是 文件搜索工具
负责展示的OpenAI研究者表示,这是自己最喜欢的工具。
去年,OpenAI就在Assistance API中推出了文件搜索工具,为开发者提供简便的方式来上传、分块和嵌入文档,并且轻松实现RAG操作。
而今天,他们在文件搜索工具中推出两个新功能。
第一个是元数据过滤。此功能让用户可以为文件添加属性,轻松筛选出与查询最相关的内容。
第二个是直接搜索端点。这样我们就可以直接搜索您的向量存储,而无需先通过模型过滤查询。
也就是说,我们可以使用网络搜索来处理公共数据,用文件搜索来处理私有数据了。
第三个介绍的,就是 Computer Use工具
它是API中的Operator,可以让你控制正在操作的计算机,比如一个虚拟机,或者仅有图形用户界面而没有API访问权限的传统应用程序。
如果想要自动化这类任务,并在此基础上构建应用程序,就可以直接使用Computer Use。
Responses API
另外,OpenAI还希望从基本原则出发,为这些工具设计最佳的API。
2023年推出的Chat Completions和GPT-3.5 Turbo中,所有的API交互都仅限于文本输入和输出。
此后,OpenAI又引入了多模态功能,包括图像、音频。
此外,像o1 Pro、Deep Research Operator这样的产品,都需要在后台执行多轮模型交互和多次工具调用。
因此,他们希望构建一个足够灵活的API基础接口,能支持多轮交互和工具调用。
这个新的API,就被命名为Responses API。
在此前的Chat Completions中,只需选择上下文,选择一个模型,就能获得响应。
而接下来,研究者将展示如何用Responses API构建一个个人造型师助手。
然后就可以直接问它:现在时尚圈的最新流行趋势是什么?
不过,它还应该了解用户的个人喜好。
为此,他们建立了一个向量存储库,里面记录了团队成员的日常穿搭记录。在操作中,可以筛选向量存储中的文件,只显示与目标用户相关的内容。
然后就可以问造型助手:Ilan喜欢穿什么,你能总结一下吗?它立刻给出了准确的总结。
但是要打造一个更好的助手,我们还需要让他能从网上获取最新数据。为此,就要添加网络搜索工具。
接下来,他们考验了是否能用文件搜索工具,来了解Kevin小哥的穿衣喜好,然后用网络搜索工具找到附近让他感兴趣的商店。
模型调用了文件搜索工具,了解Kevin的穿衣风格,然后调用网络搜索工具,根据他的位置——东京,寻找他喜欢的商店。
让人惊喜的是,模型只用了一次API调用,就在东京找到了好几家巴塔哥尼亚专卖店,完全符合Kevin的品味。
但是,这还不够!一个称职的个人造型助手,应该可以直接帮你购物。
为此,他们添加了Computer Use工具,要求助手帮Kevin买一件黑色巴塔哥尼亚夹克。
在电脑本地运行Docker容器后,把截图发给模型,它就会分析计算机的状态,发出下一步指令。
研究者执行操作后,再拍一张截图发给模型,它就会循环操作,直到任务完成。
Agents SDK
在实际开发任务中,应用会更复杂,比如我们需要开发一个客服智能体,它要能处理退款,还能回答常见的客服问题、处理订单和账单。
为此,OpenAI去年已经发布了一个名为Swarm的SDK,让智能体的协同调度变得简单。
今天,他们家决定将Swarm升级为Agents SDK。
研究者Ilan介绍说,自己曾投入大量时间合作企业和开发者,帮他们构建智能体,也亲身体会到看似简单的想法想落地却十分复杂。
Agents SDK的理念就是:保持简单,同时用直观简便的方式构建更复杂强大的功能。
比如接下来的考验就是,不小心订了太多件巴塔哥尼亚的衣服,所以需要退货。
本来,可以直接添加一个退货工具,在提示词中指示就能实现了,但这就存在一个问题:业务逻辑都混在一起,会让智能体更难测试。
而如果采用多智能体脚本,就能独立开发和测试各个模块。
为此,他们专门引入了一个退货智能体。Swarm中特别受欢迎的标准Python函数,都被引入了Agents SDK。
现在,他们已经有了一个造型师智能体,和一个退货智能体,然后需要实现一个简单却强大的概念——任务交接。
它的强大之处就在于,一个智能体处理对话后,将其转交给另一个智能体时,对话内容保持不变,只需在后台替换指令和工具,这就能为对话的每个环节加载上下文。
整个流程是这样的:分类智能体将任务转到了客服智能体,然后客服智能体主动调用了getPastOrders函数,让我们看到了Kevin所有的巴塔哥尼亚商品。
本来这种情况需要手动添加调试语句的,但Agents SDK的一大优势就是内置了监控和追踪功能。

在仪表盘中,我们可以看到所有具体交接的过程
以上展示的,都是Agents SDK 提供的开箱即用功能,它甚至还配置了安全防护机制和生命周期事件处理。
而且,它是一个开源框架。只需执行pip install openai-agents,就可以安装使用了。
在结束之前,Ilan实际执行了一下退款操作。
「你知道吗?抱歉了,Kevin。把这些都退掉吧。」Ilan打趣的说。 「那我穿什么呀? Kevin要 被冻着了,」现场大家都笑了出来。
「是啊,让我们看看。商品还真不少。好了,退回这么多巴塔哥尼亚的商品确实需要点时间。」Ilan开始执行退款。
他在智能体中打出了「get rid of all of them」指令。 几秒钟后,Kevin的巴塔哥尼亚就全都退款成功了。
「那么系统内部是如何运作的?如何进行调试?如何更深入地了解整个过程?」Kevin问道。






请到「今天看啥」查看全文