OpenAI 又有大动作了!这次,他们发布了一款智能体——Operator。
在当地时间 1 月 23 日的发布会上,OpenAI CEO 山姆·阿尔特曼表示:“这款产品标志着我们正式迈入智能体领域。”
这预示着 OpenAI 在人工智能技术上的又一次突破。
而 OpenAI 总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)则在 X 平台上进一步透露:“2025 年将成为智能体元年。”越来越好奇,后面他们还会有什么大招放出来!
想象一下,你有一个智能助手,它不仅能帮助你查找信息,还能主动为你完成一系列繁琐的任务。Operator 就是这样一个助手。它可以独立浏览网页,自动填写表格,甚至帮你预订旅行或购买商品。简直就像是一个无所不能的虚拟助理,随时准备为你服务。
目前,Open AI 称 Operator 作为研究预览版本,首先向美国地区的 Pro 用户开放。虽然它还在不断进化中,但它已经展现出惊人的潜力,未来有望扩展到更多用户。
那么,Operator 是如何做到这一切的呢?这要归功于它背后强大的技术——CUA(Computer-Using Agent)。
CUA 是 OpenAI 基于 GPT-4o 技术研发的最新成果,其核心功能在于它结合了 GPT-4o 的视觉识别能力和高级推理能力,可以截图并像人类一样操作鼠标和键盘。
CUA 经过训练可以实现与图形用户界面 (GUI) 进行交互。
想象一下,当你让 Operator 完成一个任务时,它会先“看”到网页的内容(通过截屏),然后像你一样用鼠标和键盘与网页互动。即使遇到问题,Operator 也会自己尝试修正,实在解决不了时,它会请求你接管操作。这种自主性和灵活性让它成为一个强大的网页任务助手。
有了 Operator,你的日常生活会变得更加轻松。它不仅能帮助你完成一些基本的任务,还能处理更复杂的操作:
-
预订旅行:假设你计划去罗马旅游,Operator 可以帮你在 TripAdvisor 上找到最佳的一日游,并完成预订。
-
购物助手:无论是补充日常货品,还是在 Etsy 上定制个性化商品,Operator 都能帮你轻松搞定。
-
多任务处理:你可以同时处理多个任务,比如一边预订露营地,一边购买个性化礼物,Operator 都能高效完成。
当然,在享受这些便利的同时,安全性和隐私保护也同样重要。OpenAI 在设计 Operator 时,也特别注重用户的控制权和数据安全:
-
用户控制:当涉及敏感信息(如登录凭据或支付信息)时,Operator 会请求你亲自操作。
-
用户确认:在执行重要操作(如提交订单或发送邮件)之前,Operator 会确认你的选择。
-
任务限制:对于涉及高风险的任务(如银行交易),Operator 会自动拒绝执行。
用户还可以随时删除浏览数据,退出所有登录账户来确保个人信息得到妥善保护。
尽管 Operator 已经展示了巨大的潜力,但它依然面临一些挑战。例如,在处理复杂界面任务(如创建幻灯片或管理日历)时,它可能会遇到困难。此外,Operator 还需要通过用户反馈不断改进,才能更好地适应不同的使用场景。
不过,OpenAI 对 Operator 的未来充满信心。他们计划通过开放 API 让开发者可以将 CUA 模型集成到自己的应用中,进一步增强其功能。而且,未来 Operator 还将向更多用户开放,甚至可能直接集成到 ChatGPT 中,带来更加流畅的使用体验。
Operator 的发布,标志着人工智能应用的一次重要突破。
山姆·阿尔特曼
在直播中还说道:Operator 是 OpenAI 推出的“首批智能体”,并透露未来几周和几个月内还将发布更多类似的智能体。那就让我们拭目以待吧!
相关图书推荐
本书是深度学习真正意义上的入门书,深入浅出地剖析了深度学习的原理和相关技术。书中使用 Python3,尽量不依赖外部库或工具,从基本的数学知识出发,带领读者从零创建一个经典的深度学习网络,使读者在此过程中逐步理解深度学习。
《深度学习入门2:自制框架》
豆瓣评分 9.8,深度学习鱼书姊妹篇,这套书做到了真正意义上的“入门”!书中没有使用内容不明的黑盒,而是从我们能理解的最基础的知识出发,一步一步地实现最先进的深度学习技术。
豆瓣评分 9.4 的畅销书,”鱼书“系列第 3 部,带你快速直达自然语言处理领域!本书内容精炼,聚焦深度学习视角下的自然语言处理,延续前作的行文风格,采用通俗的语言和大量直观的示意图详细讲解,帮助读者加深对深度学习技术的理解,轻松入门自然语言处理。
《深度学习入门4:强化学习》
斋藤康毅 | 著
郑明智 | 译