专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
红杉汇  ·  灵蛇送福来,三重惊喜等你点击! ·  19 小时前  
创伙伴  ·  免费领取红包封面:蛇年行大运! ·  2 天前  
创伙伴  ·  马斯克炮打星际之门! ·  2 天前  
独角兽智库  ·  AI端侧崛起,开启科技投资新时代(附谷) ·  6 天前  
51好读  ›  专栏  ›  独角兽智库

OpenAI 专家交流纪要

独角兽智库  · 公众号  · 科技投资  · 2025-01-25 00:00

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


OpenAI AGI的规划:

Operator会在未来几天内发布。为了理解Operator,我们需要回顾OpenAI的AGI规划蓝图。该蓝图将AGI的发展划分为五个阶段,类似于自动驾驶的L1到L5。其中:

第一步被称为对话式AI,这涵盖了最近一两年我们所使用的聊天机器人,如通义千问、文心一言和GPT等。这些都属于对话式AI,是AGI发展中的第一步。

第二步则是推理,其特征在于区别于第一步的对话式AI,通过深度学习提供人类与AI对话所需的信息反馈,它能根据广泛的知识库进行分析,并总结出我们需要的答案。在推理这个阶段,其能力相当于博士水平,进一步提升了回答问题的维度。因此,它能够利用高级推理功能帮助人类解决更复杂的问题,包括数学、法律、理论研究和复杂的编程等。在最近的两三个月里,无论是国产的还是海外的模型,它们都属于AGI的第二步范畴。1月o3版本,相较于之前的版本,在编程、奥数、GPQA这种博士级别的推理能力上都有提升,同时整个架构上支持了多模态。o3代表AGI第二步到第三步的过渡阶段,我们将其称为代理阶段。

在第三阶段中,Agent不再仅限于解决个别问题,而是更进一步,能够解决许多复杂问题,这不仅依赖于模型本身,还借助了外部数据。例如,在旅游时预订机票、购物、制定日程安排,甚至是课程编排等,它能够利用自身的规划能力以及外部数据,来解决更复杂的问题。Operator接下来将涉足众多垂直领域,包括教育、购物、电商,甚至日程安排等。从今年开始,OpenAI计划将传统的模型与现实世界中的复杂场景相结合,逐步解决办公、日常生活、工业、旅游等领域的挑战。这标志着其从最初的卷智能体、卷大模型演变为卷更高级的智能体。

第四步AGI下一阶段是创新者,它会达到如同自动驾驶L4级的高阶水平,能够自我产生创新的想法和解决方案,在科学、艺术等领域引发革命性变化。这一阶段的出现,将会深刻改变我们科学研究的方式,包括材料研发、生物制药理论研究等领域。此外,工程模拟和模型模拟也可以借助这些先进的模型实现。

创新者之后的第五步组织。最终,通过建立独立的系统,实现更复杂的全面管理和协调能力,使人类在各个层面上都能利用AI赋能,这就是OpenAI整个规划的目标。

Operator智能体:

Operator已经在12月份完成了预测,并即将发布。在与OpenAI对话时有一个小图标。需要使用点击即可。

它的能力实现,例如,当用户要求预订一张下星期旅游的机票和酒店,预算为2000美元以内,包括机票和酒店,且需入住三天时,Operator接收到指令后会自动打开浏览器搜索所需的航班信息。它已经将背后的数据打通,如国内的飞猪、携程等平台上的信息。然后,它会根据用户的搜索历史和日程表,完成整个订单的生成,甚至授权完成支付。最终,系统会通知用户任务已完成。

在电商场景中,用户可以通过语音命令购买特定商品,例如要求在100美元以内购买一双耐克跑步鞋,尺码为42码。随后,系统将自动打开合作网站如亚马逊进行搜索,并基于用户的购买历史和偏好生成订单。

此外,它还能与日程管理深度整合,根据用户的安排一键打通,如安排会议等。通过与Mac OS的深度整合,用户可以在Mac上进行个性化设置,读取并执行用户的指令,例如安排下周一下午2点至4点的会议,自动完成相关任务。所以说Operator的执行跨越多个应用,同时打通非常多的数据通道。未来它的想法一定是做更复杂的现实任务执行。同时它也颠覆了整个商业模式,成为一个新的流量入口。

目前,OpenAI拥有超过一亿的用户,这些用户与之交流的信息被其记录并理解,从而在其平台上留下一部分画像。这些数据使其具备了流量分发的能力。当用户有商业需求,如预订酒店或购物时,平台会根据用户习惯进行流量分发,推送相应的电商信息,形成新的流量入口。这意味着在未来购买商品时,我们不再局限于访问亚马逊等传统电商平台,而是可以直接通过Operator入口获取所需商品信息,从而完成整个购买闭环。在这个过程中,他们将面临新的挑战。首要问题是,如何与现有的电商平台建立合作关系。电商平台有自己的APP和网站,它们为何愿意让客户从OpenAI的入口购买?他们会形成一种竞合关系。市场目前有一些其他产品,比如computer use以及像智谱AutoGLM的产品,他们的定位与operator有所不同。这些产品的本质都是跨操作,可以在电脑或手机上进行切换,模拟屏幕触摸动作,但背后的信息和数据难以获取或打通。因此,它与Operator不在同一水平上。包括computer use,它也只是模拟电脑上的操作,用光标代替鼠标,解放双手。而Operator是一个主动的执行者,实现端到端任务自动化。随着Operator的诞生,它将转变为一种未来的新用户体验,打开许多垂直场景,我们当时提到了软件开发、规划电商等几个例子。它将逐个打通这些场景,面向企业和个人提供多种垂直服务。这样,它既为C端用户提供了新的体验,也在B端为企业创造了更多垂直领域的产品和服务。因此,我们需要从这个维度来分析该产品所带来的新体验,这不仅仅是交互方式的变化,背后还有一套深刻的商业逻辑,并且这意味着在向AGI发展的过程中,OpenAI已经走向了第三步。

问答环节:

Q:Operator与我们理解的API或者代执行的形式都不同,想问下它具体是如何实现功能的?

A:首先需要理解它的产品形态。它的执行通常使用主流浏览器,如IE或Chrome浏览器。它会获取浏览器授权,从而能够操控浏览器。浏览器会允许模拟用户的鼠标操作和敲击代码或数字,这是浏览器赋予它的权限。

其次,它还需要通过操作系统的授权。为了与Mac电脑深度整合,它必须获取相应的权限。一旦与苹果电脑的OS深度整合,苹果电脑会授予它读取权限。这不仅允许它与屏幕内容互动,分析屏幕信息,还能进一步增强其自主执行任务的能力。

再次,是接入第三方数据API。这类API,类似于主流电商,允许第三方数据获取商品信息、售价信息、物流信息以及其他基本信息。这些信息的获取可以完全开放,比如淘宝、天猫和AWS。它可以读取这些信息,并向终端用户展示。

Q:它所获取的这些数据,在执行的时候会有什么样的帮助吗?

A:能够获取数据端的画像。像电商平台的用户画像包括年龄、地域、消费行为、产品偏好以及季节性消费额度等信息,还包括用户的职业等。电商平台虽不常分享此类信息,但AI通过与用户的交互,汇总了用户的偏好信息,例如用户询问服装风格的流行趋势等。AI结合用户画像,通过与电商平台的连接,运用自身的算法为用户推荐相关信息。用户在两个平台上的行为会塑造各自不同的用户画像。随着用户对平台的深入使用,形成的购买习惯会更加个性化。这种情况下,用户在平台上进行的对话可能会更加丰富、全面和立体,更加实时。因此,推荐的信息相比电商自身平台的信息会更加精准。这就是两者之间的差异。

Q:Operator推出后会是什么样的收费模式?

A:预计会集成在Pro/Plus版本里面,早期为了吸引用户,它不太可能设置较高的门槛。未来,它的商业模式也并是通过收费来实现,而是通过聚集流量和用户的行为来盈利。

Q:Operator拿到Mac授权后,是否会被集成在Siri中?

A:用户可以通过Siri执行相关操作。这与网页版不同,不需要用户点击Operator,系统会自动识别并判断用户的指令是否需要调用Operator进行任务规划或执行复杂操作。这样,用户无需复杂地单独启动Operator,系统会自动判断任务属性。

Q:Operator执行过程中对token的消耗情况?

A:他不需要非常长的tokens,推理过程中的tokens只会比普通任务多一点,大约是2倍。

Q:它的底层模型会是o1、o3这种吗?

A:不一定。日常操作中我们并不经常使用如此复杂的推理,因为目前的日常推理相对简单,类似于普通的对话。最复杂的情况是将任务拆解并分配给后续的数据,然后再汇总生成结果。因此,在这方面4o就够了。但后续operator可能会涉及到编程等方面,这一块会用到o1这种模型。预计不同的推理会分给不同的模型去做,以平衡成本的影响。

Q:后续OpenAI Agent规划中,是否会有偏B或者纯B的产品出现?

A:operator的发布意味着OpenAI 的Agent具备从被动接受任务到主动执行的能力,但它并不能覆盖全部场景。后续的规划像电商、旅行规划、软件开发、日常管理等领域的深度解决方案。通过这种方式,它能够覆盖更多的场景。刚才提到的电商和日程管理面向的是C端用户。如果它进入软件开发领域,完全有可能做B端市场,但这样一来,它将与市场上的编程助手产品形成竞争。

Q:哪一类B端Agent会先出来?

A:B端市场方面,第一个对标的是Google。Google在十月份发布了六大智能体,其中有两个是专门面向B端的。一个是智能客服智能体,另一个是软件开发智能体。因此,预计OpenAI在B端市场首先推出的产品很可能是软件开发领域。由于OpenAI本身在软件开发方面具有强大的能力,预期它将在软件开发管理领域推出一款面向B端的产品。在C端领域,可以预见的创新包括自动管理、电子商务以及旅行规划等方面的应用。这些功能将定期迭代更新,而不是一次性全部推出。

Q:预期的发布时间节点?

A:实际上,自2024年以来,软件编程助手已经在市场上逐步实现商业化。从去年第二季度开始,无论是国产模型还是海外模型,如GitHub Copilot等,都已经开始大规模投入使用。而国产模型才刚刚开始商业化半年。因此,如果将该产品单独推出,它将不得不与存量的老产品竞争,并且这些老产品会对其构成挑战。因此,我认为该产品最迟会在第一季度或第二季度推向市场,否则最终会被市场上的存量产品抢占份额。除非它在功能、价格或体验上具有显著优势,否则它将在第一到第二季度内面临来自市场和客户存量的竞争。

Q:o3模型在推理和训练方面与前代产品的不同?

A:o3重大提升是支持多模态输入。在科学研究过程中,特别是在医学分析和药理分析等领域,会生成大量数据,包括曲线图、饼状图、图表以及各种实验结果的图像。结合科研过程中数据整理和文字分析,这些图像与数据可以处理多模态复杂信息。与传统的文本推理相比,这种多模态信息的数字推动方式在支持前沿科研、复杂编码以及多模态交互场景等方面具有显著优势。就编码而言,过去我们在做编码时,它仅能生成代码。你输入的是自然语言,生成是代码。然而,在实际的软件开发过程中,我们输入信息,产品经理编写PRD,以及交互流程图、饼状图、架构图等可视化资料,这些都会被编码系统所接纳并转化成可执行的代码。他可以从项目的角度,从更高的维度,从系统价格的维度来理解我们整个项目的需求。这样的话它在生成代码的时候就比较强。其次,它的能力有很大提升。过去奥数题目的水平,只能得到60到65分,现在则接近100分。博士级别的奥数题,他可以做87.7分,专业博士只能做70多分。能力维度上已经超越。它能够将一个复杂问题拆解为多个子问题。比如一个问题拆成10个或者100个小问题,每个小问题都会产生多种解决方案。之前我们的o1可能产生一两个解,然后从里面找最优解,形成我们最终答案。

综上所述,首先,它将文本处理扩展到支持文本、图像和音频等多种模态的复杂推理任务。其次,在多个评测数据集上的计算得分均超过o1。第三,它在AGI的进展上也优于o1,o1处于第二阶段,而它则在2到3之间,代表了AGI研究又向前迈出了一步。

Q:4o支持多模态,反而到o1不支持了,是否意味着链式推理中,多模态是一个难点,然后o3实现了突破?

A:4o的多模态和o3不是一个维度。4o能做的多模态推理,例如,如果你向它发送几张图片,询问图像中的人物位置、空间关系或与环境的逻辑关系,它都能进行分析。它能够将画面解读并“看图说话”。同样地,如果提供图表,它能够分析柱状图等基础逻辑。此外,如果发送一段视频,比如五分钟或十分钟的视频,它能总结视频的内容,描述每个时间段内的信息。这个是通用视觉推理能力,它其实是将图片/帧的特征提取出来,基于这些信息进行判断和总结。那么o1为什么不把它做进去,有几个难点,一个是推理过程中文字信息比较好分解,所以它的模型架构也是按照文本模型去做的。而多模态模型需要把文本、图像等信息一起提取出来,再交给COT推理,这里面的难度就会高很多。此外像图像等里面有非常多的隐藏信息,而很多时候,比如科学实验必须通过文字记录和实验数据进行分析。难点在于,图像和实验数据之间不是同一层级的复杂性。最近像deepseek、kimi也开始叠加深度视觉的推理,同时深度文本也在迭代,短期内可能会出现两个版本,再往后这些会融合在一起,现在是一个中间状态。

Q:o3是否是一个能够理解物理世界的世界模型?

A:所谓世界模型,是指模型不仅要理解物理世界,还要解决物理世界中各种复杂的问题。因此,世界模型必须结合物理数据进行训练,这是现实性的物理数据。例如,最近推出的名为Cosmos的模型,它才是一个世界模型,而o3只能说是世界模型的一部分。像Cosmos它能够模拟生成现实世界。比如,它能生成自动驾驶所需的街道、桥梁、隧道、高速公路等,还能模拟街道上各种场景,甚至可以生成机器人,例如工厂中的运维机器人、搬运机器人、抛光机器人。他所构建的世界模型最终旨在还原真实世界和模拟非真实世界。在现实世界中,我们无法捕捉到许多数据,例如,在台风天气中,我们不能亲自驾车外出测试路况。在极端天气条件下,我们可以通过世界模型来进行模拟。第二个就是让这些做自动驾驶和机器人的产品在虚拟环境中模拟运行,以测试可能出现的问题。测试完成后,大量的参数被用来训练我们自己的深度驾驶模型和机器学习模型。让它们在这种近乎无法模拟的环境中进行操作和测试。

而o3模型,它更多的是帮助我们预测在新世界中进行的不同实验。它能够揭示内部的联系,并进行一些动态预测。然而,它不能单独被称为“世界模型”。我们刚才强调了两个重点:一是还原世界,二是能够在其中进行模拟仿真。像cosmos,它也是结合了omniverse的生成和模拟。它其实是一个系统,并不只是通过模拟能够完成的事情。像sora也是做这个还原,将电子世界中无法实现的场景生成出来。生成是为了在物理硬件上还原和模拟现实世界。它的主要价值在于还原现实世界和模拟现实世界,同时允许我们的物理设备在模拟中进行仿真和测试,这才是世界模型的价值所在。此外,关于世界模型,我们讨论的AGI实际上是基于虚拟世界的。我们所使用的许多数据,包括图片、视频和文字,都来源于网络。为了实现真正的AGI,它不仅需要处理新世界的推理信息,还需要解决我们这个世界的问题。目前,物理AI专注于自动驾驶和机器人等领域的研究,这些领域将各种基础技术融合在一起。随着像OpenAI这样的组织发布新技术,这一趋势将加速发展。它们推出的模型旨在赋能电动机、机器人和自动驾驶技术。

Q:o3是否有在agent推理或训练上特殊优化,还是说openai内部判断o3的基础能力才能够实现规模商业化?

A:推出o3背后原因,一方面是为了支撑operator后续复杂规则任务的执行,另一方面为了衔接之前的技术,实现端到端的自动化执行。

Q:agent会不会和自动驾驶一样,虽然我们知道我们期待它具有什么样的功能,但实际实现过程中就没有那么简单。最终评估下来可能是不及预期的。您现在了解到的国内产业链情况,以及您预计的海外这边的进展,能否很快达到我们期待的这种L3级别的人工智能,还是说可能需要一个长期迭代的过程?

A:2024年,大家都处于探索阶段。回顾过去所做的项目,相对而言较为成功的例子,比如钉钉,因为它拥有众多企业级客户,已经实现了真正的落地应用。这是因为它打穿了很多的企业。它并非仅通过一个Agent就能完成所有工作,而是涉及财务、行政、人力资源和知识管理等多个方面。不同的Agent做不同的事情,专注于特定领域。像Operator这种产品虽然目前已经进入L3阶段,但还需要1年到1年半的时间,才能有比较好的发展。现在才刚刚开始,OpenAI在前面探路,后面的都是追随者。


现开放投研情报群体验名额,更多投研情报服务,请往下看

独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号



推荐文章
红杉汇  ·  灵蛇送福来,三重惊喜等你点击!
19 小时前
创伙伴  ·  马斯克炮打星际之门!
2 天前
治愈系心理学  ·  你们最好不要这样生孩子
8 年前
她读  ·  永远记住,你很贵
7 年前
慈怀读书会  ·  聪明人,不跟傻缺论短长
7 年前