来源链接
:https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
发布时间
:2025年1月23日
今天,OpenAI 发布了 Operator,这是一款 ChatGPT 的研究预览版,可以作为用户的代理工具完成重复性任务。例如,Operator 能自主帮你预订机票、安排餐厅、购买鲜花等。
它拥有自己的浏览器,用户可以实时观察它如何在网络上执行任务,并在需要时随时接管操作。与 ChatGPT 之前的网络浏览功能不同,Operator 旨在从头到尾完成任务,而无需中途过多用户输入。
本周,OpenAI 提前向 Every 提供了 Operator 的测试访问权限。以下是我们对其使用体验的详细报告。
Operator 的工作原理简介
Operator 的界面位于 operator.chatgpt.com,与传统的 ChatGPT 界面非常相似,但有一个显著区别:ChatGPT 通常会用“我能帮你做什么?”作为欢迎语,而 Operator 的问候语是:“我能帮你
完成什么
?”这种微妙的差异揭示了 Operator 更注重完成具体任务,而非作为通用聊天工具。
操作界面和建议任务
在主页下方,Operator 会显示它能够执行的一些任务示例,通常与 OpenAI 的合作伙伴网站相关。例如,它可能建议用户查找肯德里克·拉马尔(Kendrick Lamar)演唱会的四张门票,或寻找耗时少于30分钟、以鸡肉为主的晚餐食谱。
以下是界面的示例:
图片来源:OpenAI
通过输入例如“查找 Jamie XX 的演出安排以及每场门票价格”这样的请求,用户可以观察 Operator 在网络上搜索演出信息并浏览 StubHub 等网站,直到完成任务:
Operator 浏览示例
用户可随时接管操作
在执行任务过程中,用户可以随时接管远程浏览器。例如,输入用户名和密码,或者完成某些需要手动验证的操作。完成任务后,Operator 会跳转到付款页面并等待用户提供支付信息。
Operator 任务完成示例
当 Operator 能顺利工作时,它可以将通常需要 15 至 20 分钟的点击操作自动完成,为我们展示了未来与软件交互的新模式。
Operator 的亮点功能
自动保存和共享任务流程
Operator 完成任务后,会保存整个流程,并生成视频供用户观看和分享。这使得用户可以建立一个流程库,自动完成常见的重复性任务,如每周采购杂货或搜索符合偏好的航班信息。
然而,目前的 Operator 仍处于研究预览阶段,其表现并不完美。以下是我们测试时的优缺点分析。
深度测试发现
浏览功能的限制
Operator 使用的是 OpenAI 数据中心的浏览器,而不是用户的本地浏览器。这一设计使得用户可以随时随地使用 Operator,但也带来一些限制:
-
被部分网站屏蔽
:例如 Reddit 禁止 AI 代理访问;OpenAI 也主动屏蔽了部分资源密集型网站(如 Figma)和竞争平台(如 YouTube)。
-
体验局限
:某些任务可能因为无法访问特定站点而受阻。
受限制的浏览情况
以下是 Operator 被限制访问网站的另一个示例:
浏览受限情况
当 Operator 被限制时,感觉像被困在“玻璃笼”中:
受限示例
更适合作为“任务助手”,而非“研究助理”
Operator 专注于完成任务,而非深入分析。例如,当被要求阅读《战争与和平》第一章并总结人物心理时,它虽然能顺利找到书籍并阅读内容,但生成的总结过于概括,无法深入挖掘角色互动中体现的人性复杂性。
以下是生成的总结示例:
简要的总结示例
自动化能力强,但提示至关重要
Operator 能完成一些耗时较长的任务,但用户的提示质量会直接影响结果。例如,我们要求它总结“Spotify Wrapped”的发展历史,结果显示简单提示无法完成任务,但通过详细说明步骤(如使用 Google 高级搜索工具按年份过滤数据),它才能完成工作。
OpenAI 的消费者优先策略
虽然 Operator 只是一个研究预览,但它展现了 OpenAI 对于消费者产品的关注。这与其竞争对手(如只提供 API 的 Anthropic)形成了鲜明对比。Operator 的发布模式与 ChatGPT 相似:通过发布早期产品并快速迭代,推动技术的广泛应用。
尽管目前 Operator 存在局限性,但随着技术的迭代优化,它有潜力大幅减少用户日常任务的手动操作。
测试任务总结
以下是我们对 Operator 测试的一些具体任务和结果:
任务:购买演唱会门票
-
提示
:查找 Jamie XX 在洛杉矶的下一场演出门票
-
结果
:与合作伙伴网站(StubHub)配合成功,但非合作伙伴网站失败
购票任务示例
任务:安排家政服务
-
-
结果
:失败,因未考虑用户位置而推荐了不相关的服务
任务:获取最新 AI 新闻
AI 新闻任务示例
任务:分析 Spotify Wrapped
-
提示
:总结 Spotify Wrapped 的成功要素
-
任务:预订 Uber
-
提示
:查询当前从 USC 到洛杉矶国际机场的 UberX 价格