专栏名称: 虎嗅APP

有视角的商业资讯交流平台

目录

相关文章推荐

36氪 · 一趟能省上万元！年轻人春节涌向这个「平替」市场 · 15 小时前

新浪科技 · 【#传宁德时代考虑提交香港上市申请#，官方暂 ... · 21 小时前

新浪科技 · 【消息称#本田日产合并谈判可能破裂#，将分别 ... · 23 小时前

新浪科技 · 【#小鹏推出5年0利息0首付政策#】 ... · 昨天

新浪科技 · 【#极越CEO名下多家公司经营异常##极越关 ... · 昨天

51好读 › 专栏 › 虎嗅APP

OpenAI发布首个AI智能体，使用前你需要知道这些细节

虎嗅APP · 公众号 · 科技媒体 · 2025-01-24 17:39

正文

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO，原文标题：《刚刚，OpenAI发布首个AI智能体，自动帮你订餐购物，直播翻车，使用前需要知道这些细节》，题图来自：AI生成

今天凌晨，OpenAI CEO Sam Altman宣布了两个重磅消息。

一个是ChatGPT用户不仅将获得o3-mini的免费试用机会，Plus付费订阅会员还将享有更多使用额度。

另一个则是备受期待的首个智能体产品——Operator研究预览版正式亮相。好消息是，它能帮你自动网购，但坏消息是，它可能比较容易“翻车”。

OpenAI总裁Greg Brockman在X平台发文称：“Operator——一种能够使用自己的浏览器为你执行任务的智能体。2025年将是智能体之年。”

OpenAI让AI学会“用电脑”了？这是迈向AGI的第一步

作为OpenAI首款真正模拟人类操作网页浏览器的AI助手，Operator能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。

用户可以在多个类别中选择不同的自动化任务，涵盖购物、配送、餐饮和旅行等领域。

这项功能将率先向订阅200美元Pro计划的美国用户开放，随后逐步扩展至Plus、Team和Enterprise级别用户。

API预计将在数周内推出。

用户可通过operator.chatgpt.com访问该服务，OpenAI计划后续将其整合到ChatGPT，不过，ChatGPT在今天凌晨又双叒叕崩了。

简单来说，当用户启用Operator时，系统会弹出一个小窗口，展示专用Web浏览器的操作界面，并实时说明正在执行的任务。在此期间，允许用户随时接管控制。

技术层面，Operator采用远程云端浏览器执行任务，无需依赖网站API。

它通过截图识别界面元素，规划后续动作，形成“观察-计划-执行”的闭环，直至完成任务。系统支持多任务并行处理，运行效率高，且能保持登录状态。

OpenAI已与DoorDash、Instacart、Priceline、StubHub和Uber等公司建立合作。

Instacart首席产品官Daniel Danker就指出“OpenAI的Operator是一项技术突破，它使订购杂货等流程变得异常简单。”

按照惯例，OpenAI也同期召开了一场发布会。Sam Altman与Yash Kumar、Casey Chu和Reiichiro Nakano一起介绍和演示Operator。

演示涵盖了多个实际应用场景，比如通过OpenTable为Beretta餐厅预订双人座位，原定7点档位不可用后改订7:45。

使用Instacart购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片，并中途接管添加更多鸡蛋等商品。

在StubHub上试图搜索并选购预算500美元以下的勇士队比赛门票；预约清洁服务；以及计划通过DoorDash点餐，订购烧烤披萨等。

理想很美好，现实很骨感，Operator目前最大的问题还是不够稳定。刚开始演示时还算顺利，但中后期的演示过程中遭遇连环“翻车”，甚至未能成功加载相关网页。

或许是为了确保演示成功，眼瞅着演示人员输入的提示词是越来越长。

X平台大V@rowancheung也提前体验并分享了对Operator的观察。

比方说，Operator虽然在ChatGPT中运行，但功能完全不同，主要专注于网页操作（点击、滚动、输入）而非生成长文本。目前系统仍存在限制，包括部分网站会屏蔽AI访问，合作伙伴集成有限。

他指出Operator需要特定的使用方法来优化效果，就像GPT-4适合CoT提示一样，但目前对Operator的最佳使用方式研究还很初步。

不过，他还是挺看好这项技术能帮助人们自动化处理枯燥工作，从而将时间用于更有价值的事务。

此前有消息称，Operator在执行任务时使用的截图内容可能被恶意利用，导致“提示注入攻击”，存在严重的安全隐患。

因此，确保Operator的安全使用是首要任务。

根据官方博客，OpenAI主要是通过多层保护措施防止滥用并确保用户牢牢控制Operator。

接管模式：Operator在浏览器中输入敏感信息（例如登录凭据或支付信息）时要求用户接管。在接管模式下，运营商不会收集或截图用户输入的信息。

用户确认：在完成任何重大操作（例如提交订单或发送电子邮件）之前，Operator应请求批准。

任务限制：Operator经过培训可以拒绝某些敏感任务，例如银行交易或需要高风险决策的任务，例如对工作申请做出决定。

监视模式：在特别敏感的网站上，例如电子邮件或金融服务，Operator需要对其行为进行密切监督，以便用户能够直接发现任何潜在的错误。

此外，OpenAI针对Operator实施了全面的隐私和安全保护措施。在隐私管理方面，用户可以选择退出模型训练，一键删除浏览数据和历史对话，并注销所有网站。

为防范恶意网站的攻击，系统建立了多层防御机制，包括检测并忽略提示注入、监控可疑行为和建立威胁识别管道。同时，Operator设有审核系统来拒绝有害请求和不当内容，对违规行为发出警告或撤销访问权限。

“体验报告”公布，Operator背后的CUA技术有多强？

Computer-Using Agent（CUA）是支撑Operator的核心技术，它融合了GPT-4o的视觉识别能力和基于强化学习的高级推理功能。

CUA通过训练掌握了与图形用户界面（GUI）交互的能力，能像人类一样操作屏幕上的按钮、菜单和文本框，无需依赖特定的操作系统或网络API。

据悉，其创新之处在于采用通用界面方法，让AI能像人类般操作各类软件工具，突破了传统AI难以应对的众多细分应用场景。

不过OpenAI坦言，CUA还有许多需要改进的地方，比如目前就没法保证在所有场景下都能稳定运行。

OpenAI在Operator中部署的CUA系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色，如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到10/10。

在电商网站搜索商品时也保持9/10的高成功率。但在处理复杂的房产搜索等任务时，成功率降至3/10。

测试还发现，提示词的质量会显著影响任务成功率，例如在场地预订任务中，添加具体时间和操作指引后，成功率从3/10提升至8/10。

系统在处理不熟悉的UI界面和文本编辑时表现欠佳，常出现试错和低效操作，文本编辑任务的成功率仅为4/10。

为了更好地量化Operator的性能指标，发布会上的演示人员也提到了OS World测试和Web Arena测试。

OS World用于评估AI智能体在Linux等操作系统上的导航能力，Operator得分38.1%，高于其他公开系统，但低于人类水平（72.4%）。

Web Arena则是用于测试评估AI智能体在电商网站和社交论坛等网站的导航能力，Operator得分58.1%，同样超过其他公开AI系统，但未达人类水平。

安全方面，演示环节介绍了三个主要的安全考虑方向。首先是系统拒绝执行有害任务，使用审核模型和后续检测，并屏蔽特定网站。

其次对于模型可能存在的错误，系统在进行购买、预订等关键操作前必须获得用户确认，限制高风险任务如银行交易，并在敏感网站启用观察模式。

特别是针对网站对抗性攻击（如提示注入、越狱和钓鱼），系统设计了谨慎导航机制识别并忽略提示注入，实时监控模型检测可疑内容，并建立检测管道快速识别可疑访问模式。

最后系统设有注入监控器（prompt injection monitor），类似防病毒软件，实时监控模型检测可疑内容，发现可疑行为时会暂停执行。

考虑到无法预见所有安全隐患，OpenAI只能先从小规模部署开始，通过持续收集反馈来完善安全机制。

请到「今天看啥」查看全文

推荐文章

36氪 · 一趟能省上万元！年轻人春节涌向这个「平替」市场

15 小时前

新浪科技 · 【#传宁德时代考虑提交香港上市申请#，官方暂无回应】今日有消息称-20250205155110

21 小时前

新浪科技 · 【消息称#本田日产合并谈判可能破裂#，将分别召开董事会讨论有关事-20250205133544

23 小时前

新浪科技 · 【#小鹏推出5年0利息0首付政策#】据小鹏汽车消息，新年开工第-20250205105000

昨天

新浪科技 · 【#极越CEO名下多家公司经营异常##极越关联公司经营异常#】天-20250205091000

昨天

教你看穿男人的心 · 经常读书的女人究竟有什么不同？

7 年前

生活知识讲堂 · 人的一生有两件事不能做

7 年前

新浪教育 · 大四女生被全球百强名校录取爱好多是制胜法宝

7 年前

巨蟹座专属 · 巨蟹座明日运势【5月18日】

7 年前

百思不得姐 · 不得姐漫画

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!