事件:今日AI行情轮动至应用板块,尤其是由于Open
AI发布Operator功能
(类似于Claude Computer Use以及智谱GLM PC),可以基于指令模拟人类进行电脑操作完成任务,A股Agent相关标的涨幅居前。
1、24日凌晨OpenAI发布智能体Operator,通过CUA系统进行复杂的思维链反思和步骤规划,能够在不进行精调的情况下完成泛化任务。
在目前的演示中,Operator可进行网购、订餐、论文分类搜索、文献综述等。
2、如何理解AI Agent?
Agent更多是一种理念,指的是希望AI能够在接受指令后能够有更强的自主性去主动完成任务,而其实现的方法有多少,可以基于API来实现(直接调用),基于编程接口来实现(AI Coding),或是基于GUI模拟操作来实现,各条路线各有优劣,其中OpenAI发布的Operator是基于第三种路线
3、CUA(Computer-Using Agent)原理:
融合GPT-4o的视觉能力,可通过处理原始像素数据来了解屏幕上发生的事情,按照“集成感知(提供计算机当前状态的屏幕截图)— 推理 — 行动”的流程进行迭代循环,能够操作屏幕上的按钮、菜单和文本框。
4、目前Operator以“研究预览”形式向ChatGPT Pro美国用户开放,
将逐步推广至Plus/Team/Enterprise用户,此外,Operator还为DoorDash、Instacart、OpenTable、Uber 等企业提供服务。
5、Sam Altam表示将在ChatGPT免费版中提供o3-mini模型,
目前该模型已完成安全测试,预计在未来几周正式发布。
6、看好哪些Agent形态?
基于上面提到的不同的路线,实际上AI Agent主要会在两个方向进行落地,个人端和企业端。
其中个人端Agent更多是贴近用户,服务个人日常的生活工作,我们认为未来更多会以#端侧AI 的方式来部署,场景更为发散,落地难度大但想象空间也大;
企业端Agent则是聚焦企业的具体使用场景(比如客服、财务、流程、供应链等等),以#企业SaaS 为啥入口,贴近场景落地,商业化进度会更快,海外已有进展国内也在跟进
7、计算机板块主要是和后者企业端AI Agent相关
,具体如下:
#泛微网络&致远互联 :Agent+OA结合,入口级场景,智能化流程,数百家客户落地
#焦点科技 :Agent+B2B电商,卖家流程全场景赋能,24年客户接近1万家,收入数千亿
#鼎捷软件 :Agent+企业服务,知识库&流程&设计多种产品,24年收入6000万,25年目标上亿
#汉得信息:Agent+企业服务,与豆包&智谱等合作落地模型应用,25年目标相关订单2-3亿
#金山办公:WPS AI目标向知识库等更多功能延展,企业端WPS AI加速推广;C端AI用户已超过200万,贡献数亿元流水
OpenAI AGI的规划:
为了理解Operator,我们需要回顾OpenAI的AGI规划蓝图。该蓝图将AGI的发展划分为五个阶段,类似于自动驾驶的L1到L5。其中:
第一步被称为对话式AI,这涵盖了最近一两年我们所使用的聊天机器人,如通义千问、文心一言和GPT等。这些都属于对话式AI,是AGI发展中的第一步。
第二步则是推理,其特征在于区别于第一步的对话式AI,通过深度学习提供人类与AI对话所需的信息反馈,它能根据广泛的知识库进行分析,并总结出我们需要的答案。在推理这个阶段,其能力相当于博士水平,进一步提升了回答问题的维度。因此,它能够利用高级推理功能帮助人类解决更复杂的问题,包括数学、法律、理论研究和复杂的编程等。在最近的两三个月里,无论是国产的还是海外的模型,它们都属于AGI的第二步范畴。1月o3版本,相较于之前的版本,在编程、奥数、GPQA这种博士级别的推理能力上都有提升,同时整个架构上支持了多模态。o3代表AGI第二步到第三步的过渡阶段,我们将其称为代理阶段。
在第三阶段中,Agent不再仅限于解决个别问题,而是更进一步,能够解决许多复杂问题,这不仅依赖于模型本身,还借助了外部数据。例如,在旅游时预订机票、购物、制定日程安排,甚至是课程编排等,它能够利用自身的规划能力以及外部数据,来解决更复杂的问题。Operator接下来将涉足众多垂直领域,包括教育、购物、电商,甚至日程安排等。从今年开始,OpenAI计划将传统的模型与现实世界中的复杂场景相结合,逐步解决办公、日常生活、工业、旅游等领域的挑战。这标志着其从最初的卷智能体、卷大模型演变为卷更高级的智能体。
第四步AGI下一阶段是创新者,它会达到如同自动驾驶L4级的高阶水平,能够自我产生创新的想法和解决方案,在科学、艺术等领域引发革命性变化。这一阶段的出现,将会深刻改变我们科学研究的方式,包括材料研发、生物制药理论研究等领域。此外,工程模拟和模型模拟也可以借助这些先进的模型实现。
创新者之后的第五步组织。最终,通过建立独立的系统,实现更复杂的全面管理和协调能力,使人类在各个层面上都能利用AI赋能,这就是OpenAI整个规划的目标。
Operator智能体:
Operator
的能力实现,例如,当用户要求预订一张下星期旅游的机票和酒店,预算为2000美元以内,包括机票和酒店,且需入住三天时,Operator接收到指令后会自动打开浏览器搜索所需的航班信息。
它已经将背后的数据打通,如国内的飞猪、携程等平台上的信息。
然后,它会根据用户的搜索历史和日程表,完成整个订单的生成,甚至授权完成支付。
最终,系统会通知用户任务已完成。
在电商场景中,用户可以通过语音命令购买特定商品,例如要求在100美元以内购买一双耐克跑步鞋,尺码为42码。随后,系统将自动打开合作网站如亚马逊进行搜索,并基于用户的购买历史和偏好生成订单。
此外,它还能与日程管理深度整合,根据用户的安排一键打通,如安排会议等。通过与Mac OS的深度整合,用户可以在Mac上进行个性化设置,读取并执行用户的指令,例如安排下周一下午2点至4点的会议,自动完成相关任务。所以说Operator的执行跨越多个应用,同时打通非常多的数据通道。未来它的想法一定是做更复杂的现实任务执行。同时它也颠覆了整个商业模式,成为一个新的流量入口。
目前,OpenAI拥有超过一亿的用户,这些用户与之交流的信息被其记录并理解,从而在其平台上留下一部分画像。这些数据使其具备了流量分发的能力。当用户有商业需求,如预订酒店或购物时,平台会根据用户习惯进行流量分发,推送相应的电商信息,形成新的流量入口。这意味着在未来购买商品时,我们不再局限于访问亚马逊等传统电商平台,而是可以直接通过Operator入口获取所需商品信息,从而完成整个购买闭环。在这个过程中,他们将面临新的挑战。首要问题是,如何与现有的电商平台建立合作关系。电商平台有自己的APP和网站,它们为何愿意让客户从OpenAI的入口购买?他们会形成一种竞合关系。市场目前有一些其他产品,比如computer use以及像智谱AutoGLM的产品,他们的定位与operator有所不同。这些产品的本质都是跨操作,可以在电脑或手机上进行切换,模拟屏幕触摸动作,但背后的信息和数据难以获取或打通。因此,它与Operator不在同一水平上。包括computer use,它也只是模拟电脑上的操作,用光标代替鼠标,解放双手。而Operator是一个主动的执行者,实现端到端任务自动化。随着Operator的诞生,它将转变为一种未来的新用户体验,打开许多垂直场景,我们当时提到了软件开发、规划电商等几个例子。它将逐个打通这些场景,面向企业和个人提供多种垂直服务。这样,它既为C端用户提供了新的体验,也在B端为企业创造了更多垂直领域的产品和服务。因此,我们需要从这个维度来分析该产品所带来的新体验,这不仅仅是交互方式的变化,背后还有一套深刻的商业逻辑,并且这意味着在向AGI发展的过程中,OpenAI已经走向了第三步。
Q:
Operator与我们理解的API或者代执行的形式都不同,想问下它具体是如何实现功能的?
A:首先需要理解它的产品形态。它的执行通常使用主流浏览器,如IE或Chrome浏览器。它会获取浏览器授权,从而能够操控浏览器。浏览器会允许模拟用户的鼠标操作和敲击代码或数字,这是浏览器赋予它的权限。
其次,它还需要通过操作系统的授权。为了与Mac电脑深度整合,它必须获取相应的权限。一旦与苹果电脑的OS深度整合,苹果电脑会授予它读取权限。这不仅允许它与屏幕内容互动,分析屏幕信息,还能进一步增强其自主执行任务的能力。
再次,是接入第三方数据API。这类API,类似于主流电商,允许第三方数据获取商品信息、售价信息、物流信息以及其他基本信息。这些信息的获取可以完全开放,比如淘宝、天猫和AWS。它可以读取这些信息,并向终端用户展示。
Q:它所获取的这些数据,在执行的时候会有什么样的帮助吗?
A:能够获取数据端的画像。像电商平台的用户画像包括年龄、地域、消费行为、产品偏好以及季节性消费额度等信息,还包括用户的职业等。电商平台虽不常分享此类信息,但AI通过与用户的交互,汇总了用户的偏好信息,例如用户询问服装风格的流行趋势等。AI结合用户画像,通过与电商平台的连接,运用自身的算法为用户推荐相关信息。用户在两个平台上的行为会塑造各自不同的用户画像。随着用户对平台的深入使用,形成的购买习惯会更加个性化。这种情况下,用户在平台上进行的对话可能会更加丰富、全面和立体,更加实时。因此,推荐的信息相比电商自身平台的信息会更加精准。这就是两者之间的差异。
Q:Operator拿到Mac授权后,是否会被集成在Siri中?
A:用户可以通过Siri执行相关操作。这与网页版不同,不需要用户点击Operator,系统会自动识别并判断用户的指令是否需要调用Operator进行任务规划或执行复杂操作。这样,用户无需复杂地单独启动Operator,系统会自动判断任务属性。
Q:Operator执行过程中对token的消耗情况?
A:他不需要非常长的tokens,推理过程中的tokens只会比普通任务多一点,大约是2倍。
Q:它的底层模型会是o1、o3这种吗?
A:不一定。日常操作中我们并不经常使用如此复杂的推理,因为目前的日常推理相对简单,类似于普通的对话。最复杂的情况是将任务拆解并分配给后续的数据,然后再汇总生成结果。因此,在这方面4o就够了。但后续operator可能会涉及到编程等方面,这一块会用到o1这种模型。预计不同的推理会分给不同的模型去做,以平衡成本的影响。
Q:后续OpenAI Agent规划中,是否会有偏B或者纯B的产品出现?
A:operator的发布意味着OpenAI 的Agent具备从被动接受任务到主动执行的能力,但它并不能覆盖全部场景。后续的规划像电商、旅行规划、软件开发、日常管理等领域的深度解决方案。通过这种方式,它能够覆盖更多的场景。刚才提到的电商和日程管理面向的是C端用户。如果它进入软件开发领域,完全有可能做B端市场,但这样一来,它将与市场上的编程助手产品形成竞争。
Q:哪一类B端Agent会先出来?
A:B端市场方面,第一个对标的是Google。Google在十月份发布了六大智能体,其中有两个是专门面向B端的。一个是智能客服智能体,另一个是软件开发智能体。因此,预计OpenAI在B端市场首先推出的产品很可能是软件开发领域。由于OpenAI本身在软件开发方面具有强大的能力,预期它将在软件开发管理领域推出一款面向B端的产品。在C端领域,可以预见的创新包括自动管理、电子商务以及旅行规划等方面的应用。这些功能将定期迭代更新,而不是一次性全部推出。
Q:o3模型在推理和训练方面与前代产品的不同?
A:o3重大提升是支持多模态输入。在科学研究过程中,特别是在医学分析和药理分析等领域,会生成大量数据,包括曲线图、饼状图、图表以及各种实验结果的图像。结合科研过程中数据整理和文字分析,这些图像与数据可以处理多模态复杂信息。与传统的文本推理相比,这种多模态信息的数字推动方式在支持前沿科研、复杂编码以及多模态交互场景等方面具有显著优势。就编码而言,过去我们在做编码时,它仅能生成代码。你输入的是自然语言,生成是代码。然而,在实际的软件开发过程中,我们输入信息,产品经理编写PRD,以及交互流程图、饼状图、架构图等可视化资料,这些都会被编码系统所接纳并转化成可执行的代码。他可以从项目的角度,从更高的维度,从系统价格的维度来理解我们整个项目的需求。这样的话它在生成代码的时候就比较强。其次,它的能力有很大提升。过去奥数题目的水平,只能得到60到65分,现在则接近100分。博士级别的奥数题,他可以做87.7分,专业博士只能做70多分。能力维度上已经超越。它能够将一个复杂问题拆解为多个子问题。比如一个问题拆成10个或者100个小问题,每个小问题都会产生多种解决方案。之前我们的o1可能产生一两个解,然后从里面找最优解,形成我们最终答案。
综上所述,首先,它将文本处理扩展到支持文本、图像和音频等多种模态的复杂推理任务。其次,在多个评测数据集上的计算得分均超过o1。第三,它在AGI的进展上也优于o1,o1处于第二阶段,而它则在2到3之间,代表了AGI研究又向前迈出了一步。