这一周的「十字路口」,我们邀请到歸藏和大聪明,一起来回顾 OpenAI 连续 12 天的发布会都发布了哪些新东西?
除了让全世界惊叹的 o3 之外,还有哪些同样值得关注的新功能、新技术、新看点?
比如,大聪明认为,没有引起水花的 Day 9 发布特别值得注意:OpenAI API 的更新与 o3 的发布同等重要,因为它为未来 AI 应用的开发提供了关键基础设施。其中,结构化输出能力的持续迭代结果值得关注(从 36% 到 100% 的成功率提升),这将极大促进 AI agent,以及 AI 关联到现实世界的项目发展。
从第 1 天到第 12 天,我们将不仅逐一全面详实地介绍每天的发布,还会分享我们的亲身体验和见解。
插图由 Recraft 生成
🚥 OpenAI 12 天发布会纪录
🟢 Day 1: 满血 o1 ,ChatGPT Pro $200 会员,o1 Pro
🟢 Day 2: 基于 o1 的强化微调 RFT
🟢 Day 3: Sora
🟢 Day 4: ChatGPT Canvas
🟢 Day 5: 苹果全系接入 GPT
🟢 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音
🟢 Day 7: ChatGPT Projects
🟢 Day 8: ChatGPT Search 全量开放并优化体验,免费用户可用
🟢 Day 9: o1 API(支持 Function Call,并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持:PFT 偏好微调
🟢 Day 10: ChatGPT 的 800 电话、WhatsApp
🟢 Day 11: ChatGPT 桌面版可读取其他应用,且支持 o1 和 4o 高级语音
🟢 Day 12: OpenAI o3 正式发布!
👬🏻 嘉宾介绍
歸藏是
「
AIGC Weekly
[1]
」 Newsletter
和
「歸藏的 AI 工具箱」公众号
的主理人,这是全中文互联网我认为最最值得订阅的 AI 资讯周刊,我追更了两年,几乎是每个周末的必修课,获益良多。
大聪明是
「赛博禅心」公众号
的主理人,也是第二次来做客十字路口。
在我的朋友圈中,这两位都全程追踪了 12 天的发布会动态,我相信他们不仅能及时提供最新信息,还能确保内容的高质量。
微信收听播客:
小宇宙收听播客:
o3 的震撼发布:全新模型带来的技术突破与影响
🚥 Koji
好,我们开场的第一个问题想问二位 「你们认为这 12 天的发布会,最值得关注的重点是什么?」
👦🏻 大聪明
大家好,我是大聪明。这个问题我先来回答。
在我看来最值得关注的不是一个重点,而是两个。
第一个毫无疑问是 o3 的发布,
它带来了一个完全遥遥领先的模型
,虽然它很贵,回答一个问题可能需要
3500 美金
,这个数值是
「我拿尺子量出来的」
。
第二个是它在发布期间隐藏了一个细节,在第九天左右提到了一个
开发者更新
。这个更新既包括了 Realtime 的 API 更新,也包括了对 Go 语言的支持。
但最核心的是它允许在 o1 以及 Realtime 时进行结构化输出,这对明年的 AI agent 爆发埋下了伏笔
。这两点是我认为非常重要的。
🚥 Koji
好,我们待会儿可以展开聊聊这两点:o3 的发布和在第九天针对开发者发布的一系列 API。
那藏师傅,在你看来最值得关注的重点是什么?
👦🏼 歸藏
我是歸藏,我觉得也是 o3 这个毫无疑问是最值得关注的。
因为说实话,OpenAI 一直在引领整个行业的方向。
虽然它有些地方不是做得最好的,但在行业遇到困境时,它一定会给出一个新的路径。
前段时间不是一直说预训练到头了吗?在 o3 上我们就看到了突破性的结果。
虽然在 o1 上还没有那么明显,没有让人那么坚信这个推理的进化方向,但在 o3 上我们看到了很明显的进步和进展。
我觉得这对整个行业的信心,包括投资等方面的信心提振都是非常大的,这点还是很重要的。
🚥 Koji
可不可以用什么样的方式让大家感受一下 o3 到底有多强?
👦🏻 大聪明
一个最直接的例子就是有个程序员大神榜。在
Codeforces
上,这是一个比 LeetCode 更硬核的编程竞技平台。
很多非常优秀的程序员都会在里面参与。比如 OpenAI 现任的首席科学家,他在 Codeforces 的得分是 2655 分。
而这一次的 o3 的编程得分是 2727 分,就是超过了 OpenAI 首席科学家一大截
。如果放在现行的榜单里面,
能够排到人类第 175 名
,这是非常离谱的一件事情。
🚥 Koji
这个 o3 还有一个惊人的数字,它每完成一个单任务大概需要 3500 美金,
相当于 2 万人民币
。
我看到大聪明也在公众号写道,你去问 o3 一个问题:「9.09 和 9.11 到底谁是更大的数字?」,这个问题一问,2 万人民币就没了。这是不是也说明了背后还是可以在计算能力上继续创造奇迹?
👦🏻 大聪明
这里其实有个小细节,o3 在比照 o1 时,有两个版本。
一个是低算力版本,计算一次任务量大概需要 20 美金,可能未来我们用的就是这个版本。另一个是高计算量版本,也是更详细的模式,
它的计算量是低计算量版本的 170 多倍
。算下来就是 3500 美金。
从 3.5 美金到 3500 美金,大概是 1000 倍的增幅。
👦🏼 歸藏
所以他那个低计算量模式,我看他在 ARC 测试集上达到了 75% 多的结果,这个版本是 20 美金一次。这样算的话其实还好。
👦🏻 大聪明
我们看到那个 performance 表单时,会发现一个很有趣的事情:
正确率的百分比和消耗算力的指数是呈线性关系的。我们可以拉出一条近乎直线,就是计算量每增加十倍,我们的准确度就会增加一个固定的百分比。
🚥 Koji
10% 到 20% 之间。
👦🏻 大聪明
这件事情就意味着,如果我们要在这个测试集上达到 100% 的正确率,算力成本将是天价。
而这还不算完,在新的测试集里,我们看到 o3 的高计算量模式能够达到 88% 的正确率,但在第二版的 ARC 榜单里,它的正确率就只有 30% 了,还会被进一步压缩。
如果我们按照 ARC 测试集的标准来实现 AGI,即便是当前的计算成本可能都要在百万美金以上。
🚥 Koji
我也看到歸藏师傅在即刻上发了一条很长的内容,讲述 o3 带给你的一些感受。你还提到了一个非常强的说法,你说
「可能在未来几年,我们会像记住 ChatGPT 的发布时间一样,记住昨天晚上 o3 发布的时刻。」
是什么原因让你对 o3 的发布这么兴奋,认为它是里程碑式的事件?
👦🏼 歸藏
其实这些是整理的一些大佬们的说法。
陶哲轩提到技术人本来能顶住大语言模型可能好几年,但现在一下被拉到了 25% 的成功率。
包括前面提到的那些程序员竞技榜单,这代表了一个非常令人憧憬的未来。
从 o1 到 o3 只用了三个月就达到这样的进步。如果这个缩放定律继续下去,明年上半年我们会不会有 o4、o5?
如果 o4、o5 发布的时候,就不说其他领域,只谈数学和代码这两个领域,人类是不是就彻底无法追上它了?说实话代码其实是我们构建整个软件世界的基石,所以这会带来非常大的变化。
👦🏻 大聪明
这要补充一个关于 AGI 的信息,是上一次参加 Open AI 线下活动时 Mark 的分享。
这次 o3 发布时,开场就是 Mark 和 Sam Altman 一起分享的。Mark 提出了一个有趣的观点:
我们什么时候到达 AGI 取决于我们对 AGI 的定义。很快我们会到达我们所定义的 AGI,而那时我们会对 AGI 再有一个新的定义,然后不断追赶。
OpenAI 选取了 ARC 作为 AGI 评测的合作伙伴。ARC 提到了一个主流的 AGI 表述:
能把大部分有价值的经济工作进行自动化的系统
。
如果以这个为标准,我们可以认为 o3 已经近乎达到了 AGI。
但很快,随着我们达到这个 AGI 标准,我们又会有更高更新的标准。
🚥 Koji
这很有趣,就是关于 AGI 到底应该如何定义。之前大家一直没有达成过共识。
在 ARC 的定义里,真正的智能是指能做有经济价值的工作。
这也意味着,AI 去安慰你的情感或者共情你的感受,这些并不在他们的 AI 定义范畴里。
👦🏻 大聪明
于是就给出了一个新的定义:
AGI 并不是指你有多少技能,因为技能是可以通过训练获得的,而是你有多会学习。
一个婴儿,按照我们最朴实的想法,我们天生认为他 / 她 是 AGI。
但是他什么技能都不会,他既不会编程,更不用说达到人类前 175 名的水平。但是他很会学习,他可以从零掌握语言,他可以学会用筷子,他会用哭声表达需求。
那么我们对于 AGI 的定义,是不是要从「有多少技能」变成「能够在之后自主学会多少东西」。
12 天发布会回顾:从满血版 o1 到实时视频通话
🚥 Koji
我们先快速回顾这 12 天发布了什么,然后再详细展开讨论每一天的内容。
第一天
,满血版的 o1 上线。同时 ChatGPT 推出了争议很大的 Pro 会员,定价 200 美元一年。同时这天还发布了 o1 Pro。
第二天,
发布了强化微调 RFT。
第三天,
是正式版的 Sora 终于发布。
第四天,
推出了对标 Claude Artifacts 的 Canvas 功能,这是一个交互上的变化。
第五天,
比较平淡,主要是宣布苹果全系接入了 GPT。
第六天,
临近圣诞节,发布了 4o 的实时视频通话和视频理解功能。它可以理解实时视频流,也可以理解你过去分享的屏幕,并根据视频流和屏幕内容来实时问答。因为圣诞节将至,还可以给圣诞老人打电话。
第七天,
发布了 Projects 功能,这其实是 Claude 早就有的功能。
第八天,
ChatGPT 的搜索功能全量开放,连免费用户都可以使用。做了很多细节优化,比如可以在浏览器地址栏直接搜索,还能搜索视频,同时把 4o 的实时语音接入了搜索。
第九天,
发布了 o1 的 API,是一系列面向开发者的接口。
待会儿我们请大聪明详细讲讲,因为他认为这和 o3 同样值得关注
。
第十天,
的发布稍显平淡,主要是支持给 ChatGPT 打电话,还推出了 WhatsApp 聊天机器人。
第十一天,
是重申之前发布的 ChatGPT 桌面版,可以读取其他应用的内容。这样就不用总是截图发给 ChatGPT,而是可以直接让它看屏幕内容并回答问题。这里可以支持调用 o1 模型,也可以用 4o 实时语音对话。
第十二天,
就是我们刚才讨论的重磅发布 o3,让全行业震惊。
我们回到第一天,当时很多人都是很期待的。我相信藏师傅和大聪明你们应该也熬夜看了发布会。可以谈谈当时看到 o1 Pro 和 ChatGPT Pro 200 美元会员时的感受吗?
👦🏻 大聪明
我最大的感受是:第一,他疯了吗?200 美元已经远超出大家的正常支付习惯了,真的会有大冤种去买吗?第二,我买了(大冤种),然后用了这个 o1 Pro,发现真香。
我经常会和 AI 或者说 ChatGPT 一起思考一些东西,比如项目怎么做、事情怎么规划。我在和 4o 对话时,基本上是我说一个东西,它就顺着我的话把内容补全,有时候补得还乱七八糟,我要纠正很多次。
但用了 o1 Pro 后,它能在一次对话中就把我所需要做的事拆分得非常清楚。
这样就省去了我一小时反复修订的时间,让我觉得太值得了。
🚥 Koji
我看到还有一个说法,说 200 美元的 Pro 会员之所以值得,是因为
它有点像一个可以无限对话的、7x24 小时随时在线的「Her」
——就像那部科幻电影一样,因为你可以实时地开始无限次和 4o 进行语音对话。
藏师傅在发布会的第一天有买到这个会员去使用吗?
👦🏼 歸藏
第一天我没有买这 200 美元会员,当时觉得确实是冤种才会买。
对于 o1 Pro,当时看他们测试时用了很多推理方式。我觉得这也是他们宣发的一个问题,就是他们选用的案例,当然要测试智能,用推理去做数学、做物理是可以的。
但你需要穿插一些普通用户真正会用到的案例,来体验它有多强。他们缺失了这个功能,导致我的感知是:好,你的物理和数学很强,但对我没用,因为我并不知道它在真正的开放域智能方面到底有多少提升。
但后来是因为为了 Sora 才去开的。我用了之后才发现,它对于开放域的问题,就像大聪明说的,在讨论问题时会给出很全面而且新颖的观点,并且回答很有结构性,所以这个确实挺值的。
🚥 Koji
可以讲一个具体的例子吗?就是你用 o1 pro 做了什么?
👦🏼 歸藏
我昨天第一次试用时,想写一个我与 AI 的年度总结。因为想说的事情特别多,就想让它给出一个大纲或一些可以写的方向。
它给出的方向很值得参考。
我们知道写东西时会遇到一个问题:你去找 4o 或者 Claude 的时候,它会像大聪明说的,要么重复你说过的事情,要么说一些很显而易见的事情,或者跟你的职业和经历完全无关的内容。
但 o1 Pro 不会这样,它真的给出了非常有建设性的意见,你完全可以按照它的大纲一步步写完。
这个很厉害,但这种厉害是很感性的结果,你没法用语言描述它有多厉害。
只有当你自己看到它的回答时,才会觉得:这就是我要的东西。
👦🏻 大聪明
这里我再补充一个信息,刚才提到如果你是 Pro 会员,可以无限使用它的高级语音模式。
如果你用 API 的方式,高级语音模式平均每小时要消耗 50 美元
。
假如你特别喜欢和 AI 聊天,只要聊够 4 个小时,这 200 美元就赚回来了。
🚥 Koji
说实话我真的和 4o 聊会有一种和真人聊的感觉。
👦🏼 歸藏
4o 的问题我觉得主要是两个:一个是响应不够快,另一个就是太贵。
而且手机一开启就会很烫,可能是它的实现方式有问题。
相比之下,谷歌的 Gemini 我就完全没有这些负担。
我和 4o 对话有时会有负担,一是因为它很贵,二是它看起来做得很重。但和 Gemini 聊天就没有这个负担。虽然它现在只会说英语,但我可以很随意地聊,而且它的响应比我们这边要快很多,可能是因为模型比较小。这也是我用下来觉得它很强的一个地方。
🚥 Koji
其实在这 12 天期间,Gemini 也发布了 2.0。虽然它受到的 PR 关注肯定不如 OpenAI,但我感觉它的口碑非常好。
我们待会儿也会和大家分享一下我们几个人使用 Gemini 2.0 的体验。
好,我们来看第二天。第二天发布的是基于 o1 的一个强化微调,叫 RFT。可以请你们来给大家介绍一下 RFT 是什么吗?
👦🏻 大聪明
比如说你希望 GPT-4o 在说话时非常简明精炼,但它自己做不到,你就需要对它进行微调,给它非常多的样本,让它在之前的基础上进行学习。
o1 其实并不能完全归入传统的大语言模型范畴,它是一个大模型结合 Agent 的聚合物,只不过它把 Agent 这一块做到了大模型里面,它会自主反思。
对于传统意义上的微调就不再适用了。如果希望 o1 的输出有一定的倾向性,无论是思考方式还是输出样式,都需要对它进行新的微调。
于是就有了一个针对 o1 的微调方式 RFT,它其实是原来 FT 的一个变种
。它的目标对象从原来的大模型变成了 o1 这一种 Agent 形式的大模型。
🚥 Koji
明白。所以这一个发布其实当天也是没有引起特别多的关注。是因为其实它带给 C 端用户的体验不是那么直接。
👦🏻 大聪明
不仅是对 C 端用户不直接,对 B 端或开发者端也是如此。因为 o1 太贵了,正常情况下不会把它放到模型里,成本打不过来。
而微调的成本还会比直接使用 o1 更高。所以做项目时,绝大多数情况下暂时还不会考虑使用它。
但从另一个层面来说,我们知道模型会不断降价。如果它的成本降到比较亲民的水平,同时你还有类似的需求,相信会有不少开发者对它进行微调。
Sora 正式发布:视频生成能力的突破与不足
🚥 Koji
到了第三天,在发布会开始前的 12 个小时,谣言就满天飞,说当晚要正式发布 Sora。那天确实有不少人熬夜守候。Sora 最终发布后,反响却是毁誉参半,对它的质疑声音甚至逐渐增多。
藏师傅,你刚才提到在 o1 和 o1 Pro 这两个满血版本发布时,你没有充值 200 元开通会员。但 Sora 却让你付费开通了会员,能否和我们分享一下你开通会员后使用 Sora 的体验?
👦🏼 歸藏
如果你是 Plus 会员(20 美元),只能生成最高 720P 的视频,而且仅限生成十几个视频就会用完额度。如果要用它做正式的视频创作,就必须充值 200 美元的会员。
所以我最终选择了付费。
充值后我发现它有两个主要方面。一方面,它的功能确实很精细,比如故事版功能允许你连续输入多个视频,它会通过首尾帧或其他方式帮你做转场,将所有片段连接成一个完整视频。这在交互和功能性上确实做得很好。
说到模型本身,我们先看看模型的基础能力。
以文生视频为例,它在质量表现最好时确实很出色,但这种高质量输出非常有限。
可以说它比当前最好的视频模型也就好那么一点点,达到了一流水准。
视频模型的训练过程其实和语言模型类似,需要先有个文生视频模型,再基于图像做图生视频微调。
但在图文转视频方面,它的微调明显不足,给人一种仓促完成的感觉。
如果他们认真训练,不会是现在这个状态。我们对图片转视频最基本的要求就是能动起来,不管效果好坏。
但现实是 90% 的情况下,你输入一张图,等待几分钟,花费了几块钱的积分,最后输出的还是一张静态图片。
这种情况令人非常恼火,这已经不是服务质量或模型性能的问题,而是一种非常恶劣的商业行为。你宣传的功能完全不可用,还收取如此高昂的费用,这本质上就是欺骗用户。
🚥 Koji
哇,这是一个非常严重的批评。
👦🏼 歸藏
是的,这确实是个诚信问题。你为了使用这个功能支付了 1500 元人民币开通月度会员,但实际上这个功能几乎完全无法使用。
🚥 Koji
大聪明,你有什么想要补充的吗?
👦🏻 大聪明
虽然我不是专业的视频创作者,但它的无限循环和故事版这两个功能对我来说确实是个惊喜。
🚥 Koji
谈到 Sora 这次发布,还有一个值得注意的细节。在前几天我们和
Monica Founder 肖弘
录播播客的时候,他提到这次
Sora 没有发布 API,这在 OpenAI 的历史上是很罕见的
。
这似乎表明,在今年对 OpenAI 来说,开发应用的重要性似乎超过了提供 API。
👦🏼 歸藏
我觉得核心目的有两个:获取数据和提高市场占有率,占据用户认知。
所以对于其他公司来说,开发应用一直是最重要的方向。
因为我们都知道,单纯发布 API、售卖 token 是没有壁垒的,也无法形成规模效应。
你一定要做成产品,通过独特的功能留住用户,扩大用户规模,让用户形成对产品的依赖,这才是正确的路径。
Canvas 与 Artifact:两种不同的产品设计理念
🚥 Koji
说到大模型厂商需要开发应用、增加功能来提高用户粘性,我们正好可以聊聊第四天发布的 Canvas 功能。不过值得一提的是,Claude 在半年前就推出了 Artifact 功能,当时获得了很多好评,确实能显著提升生产效率。
关于这一点,请二位介绍一下 Canvas 是什么,如果可以的话,也请比较一下它与 Artifact 的区别。
👦🏻 大聪明
我来解释一下。先说 Artifact,它其实是这样工作的:
当大模型生成 HTML 或者带 JS 的前端代码时,它可以在 Claude 界面中直接渲染出这个页面,让你实时看到效果。同样,如果生成的是 Markdown 内容,也能直接在浏览器中渲染并预览。
这个功能对于检查前端代码的效果非常有帮助。
而 ChatGPT 的 Canvas 功能最初是从它的代码解释器功能演化而来。
比如你让它写一个解决鸡兔同笼的算法,它不仅会在代码框中展示代码,还能直接运行并显示结果,背后其实是运行着一个 Python 服务器。后来这个功能得到了扩展,除了运行代码外,还能展示各种文本内容,并且支持对文本进行编辑修改。
🚥 Koji
我看到过网上一个很有趣的使用案例:
一个用户让 ChatGPT 为他的论文做批注,并特别要求用哲学系教授的风格。
最终在 Canvas 中呈现的效果很像 Word 文档的批注格式 —— 原文在主区域显示,批注内容则在侧边栏中展示,并能准确指向原文中被评论的具体段落。
这个功能确实让人惊喜。相比之前简单地请大模型修改文章,这种交互方式在体验上有了很大的提升和进步。
👦🏻 大聪明
OpenAI 最近确实低调发布了很多功能,没有开发布会,也没有任何新闻露出,这点很有趣。
比如你刚才提到的文章批注功能,其实是基于 OpenAI 上个月悄悄推出的 Predicted API(或称预测模式)。这个功能可以让你输入一篇文章,告诉它修改要求,它就能快速标记出需要修改或订正的地方,并给出修改建议。
我认为 Canvas 中的批注功能很可能就是运用了这项一直在线但未正式发布的技术。
🚥 Koji
对,这个其实还真的挺有用的。我之前一直在用 Notion AI,会在 Notion 里面请它直接帮我改东西。但它也就是直接改了就改了。不像是请一个同事或一位律师帮你改文件时,他会保留修订记录,然后你自己去决定要不要接受这一点,拒绝下一点。不过现在 OpenAI 也可以做到这一点了。
👦🏻 大聪明
然后这里面还有一个很有趣的点,就是因为它只是修订,而不是重写。它可以快速处理一长篇的内容,并且保持你的主体结构不变。这个功能除了在修订文章之外,在修改代码上面也非常有用。
很多时候你让它修改代码时,因为你的代码会和其他的老代码做交互,一旦动了结构,有时候会非常麻烦。如果它只是修改某些参数,并且能同时处理这些参数之间的关联,就会非常实用。这一块也是预测性输出的一个用法。
🚥 Koji
藏师傅有没有什么要补充的?
👦🏼 歸藏
负责开发这个功能的人在 10 月 4 号分享过一些内容,讨论了她对这个功能的核心思考。
她提到了两个关键点:一是尽量不让用户去思考什么时候该触发、该用什么功能,而是让 AI 来做决定。这是一个展示性的方案,用更友好的方式去展示一些不适合在对话中呈现的内容,比如长文本、文案和外部渲染等。
而 Canvas 那个作者的想法则不同,她想要打造 AGI 的终极界面。
在她的想象中,这个终极界面是一个空白画布,用户可以随意调整。
她的核心理念是希望将其打造成一个创作伙伴,去帮助和指导创作。这也解释了为什么前面提到的批注功能如此重要 —— 它完美符合创作伙伴的定位。我们可以参考现实中同事间的协作方式:同事会评论你的作品,给出建议,而你可以选择接受或拒绝。在代码 review 时也是如此,可以做一些标注或注释,由你决定是否采纳。
它本质上是以创作伙伴的形式设计的功能,这与前面提到的展示性方案有着根本的区别,因此衍生出了很多不同的功能。
比如说 canva 其实做得很重,很多功能都在模拟一个创作伙伴应该对内容做的事情。而 artifact 的愿景其实很简单,就是为对话中不易展示的内容提供更合适的展示形式。这是导致两者功能设计差异的核心原因。
实时视频与项目管理:AI 交互方式的创新与发展
🚥 Koji
我觉得这其实反映了产品哲学的不同。
说到这里,2025 年有一个非常值得期待的点,就是在传统 chatbot 交互之外,大家会发现很多新的交互方式。
这种创新已经在很多地方开始萌芽了,不只是在 AI coding、Cursor,也不只是 Davin 带来的 agent 模式,还包括 Canvas、Recraft 的文生图和图生图,以及 Recraft 无限白板这样的图片编辑模式。这些产品创新已经多到有点数不过来了。
上周和 Monica 肖弘录播客时,他提到 2024 年有点 boring,
因为感觉还是 ChatGPT 3.0 发布的 chatbot 这样的交互形式的线性外推
。
但 2025 年特别值得期待的一个原因,就是各种与 AI 交互的用户体验方式已经在如雨后春笋般涌现。
到第五天,感觉像是给苹果站台,就像一个公关发布会,发了一篇 PR 文章告诉大家可以在苹果设备上用 ChatGPT 了。这个没什么特别好讲的。
到了第六天,是关于 4o 的实时视频通话和视频理解功能,包括和圣诞老人的通话。这个在社交媒体上引起了一些小水花,因为很多博主会用 ChatGPT 去和圣诞老人聊天开玩笑。
你们看到第六天的发布后,有什么感受或想法吗?
👦🏼 歸藏
高级实时语音是一个非常极致的功能,也是最能让人感受到 AI 智能的方式。
普通用户可能不理解 o1 或 o3 有什么意义,觉得「我也用不着」。
但对于实时语音通话来说,普通用户会觉得「这个东西真的好厉害」,因为它模拟了科幻电影中才存在的场景。
所以在小红书或抖音上,只要发布使用实时语音做的一些事情,比如有研究生用它来识别化学药剂,让它指导自己配实验,或者是和 GPT 谈恋爱这类内容,都很容易引起普通用户的共鸣,真的很戳人。
🚥 Koji
对,包括练习口语、模拟面试,这些功能都变得很实用。我自己也试了一下,因为同期 Gemini 2.0 也发布了类似的功能,可以打开摄像头,直接举一个东西问它「这是什么」,识别率还蛮准的。我甚至指着墙上的一张海报问它,「这是一个电影节的海报,你能告诉我这是哪一年什么电影节的海报吗?」它也都能给出相应的猜测。
👦🏻 大聪明
我补充一点信息,这一天发布的两个主要卖点是
视频通话
和
屏幕共享
。
先说视频通话,
如果我们回看 OpenAI 过去一年的对外投资和合作,会发现这家公司涉及了很多线下和硬件相关的场景。如果 ChatGPT 能够很丝滑地教你煮咖啡、做化学实验,这个功能就可以迁移到他们之前投资的那些硬件产品中,这就会变成一个相当「王炸」的功能。
我们会发现这里面的技能点和技术路线是一致的。
比如说化学实验,现在是用摄像头去对着化学设备。如果这个摄像头和 GPT 直接内置在化学仪器里,再和机械臂结合,就可能会变成自动化的流程。
再说共享屏幕,大家可能记得去年微软发布了一个叫做 Copilot 的品牌。其中一个很有趣的点是,你可以和电脑相互对话,让电脑自主完成一些任务。
这需要把页面信息传给助手,这个功能据传可能被搁浅了。
但在 ChatGPT 这次的发布中,它可以监控其他应用的信息。虽然我不清楚它的监控程度,但这可能是与苹果的合作,能够获取较深层的信息。在移动设备上,这就变成了一个额外的辅助工具。比如炉石玩家可以边打游戏边问它下一张牌该怎么出。
后面在第 11 天还会发布一个客户端功能,也是类似的。它可以理解你屏幕上的内容,不管是编程、游戏,还是聊天,理论上都可以给你提供回复建议和指导。
🚥 Koji
我们待会儿还会聊到,在后面第 11 天的时候,他还发布了一个客户端功能,也是类似的。它可以读取和理解你屏幕上的内容,不管是编程,还是你在玩什么游戏,甚至是你在和别人聊天,它都可以给你一些如何回复的指导,理论上都是可以实现的。
👦🏻 大聪明
这种做法其实说白了,就绝了很多 Copilot 产品的路子。
🚥 Koji
这让人想到 AI 创业的经典困境:
当 OpenAI 这样的大模型公司发布新功能时,你会同时感到兴奋和绝望。
第七天发布的是项目功能,你可以把一个项目里的各种文件全部放到一个文件夹里,然后与这个文件夹进行对话。这样模型就有了知识库和上下文,可以给出更好的回复。这其实是 Claude 在半年前就有的功能,OpenAI 现在才加上。
这个功能做出来之后,二位看到一些有趣的用法吗?
👦🏼 歸藏
具体的预训练或模型训练细节我可能不太了解。
但这个功能和刚才说的 artifact 功能有个特点:在推理过程中,或者说在模型训练过程中,我们需要对语料进行分析和归类,识别高质量语料,然后将这些合成数据用于再训练。
这里有个核心问题,就是很多内容都是开放性的,语言模型输出内容的对话价值不太好验证,如果想拿去再训练,可能会有一些问题。
这两个功能在某种程度上解决了这个问题。
比如说 project,我放在 project 里的所有文件以及对话,基本都是一个主题的。如果对话人数多,我们通过其他数据筛选方式也能筛出来。
这就解决了优质对话归类的问题,同时还附带一些现实中可能的非合成数据语料。这对模型训练或数据收集很有帮助。
artifact 也是一样。Claude 的 artifact 实际上在分享,我只需分析分享的数量和点击量,就能判断大语言模型生成代码的质量,它与代码质量或对话质量是正相关的。那么在代码这一层面或长文本层面,我就能筛选出来作为语料,这样就减少了筛选成本。
对于模型训练本身或数据收集都有非常好的正向作用。
我们可能会在很多其他优秀的 AI 项目中看到越来越多这种设计。
🚥 Koji
我看到官方有一个很好的例子 —— 把求职者的各种简历、社交媒体链接等资料都放到了同一个项目里面。通过这样的方式,模型就可以更好地了解你这个人是谁。有了这些信息,你就可以让 OpenAI 为你提供一些职业上的建议,或者和你进行模拟面试。
👦🏻 大聪明
去年年底时,OpenAI 更新了隐私协议,其中提到
作为 ChatGPT 用户,你与 OpenAI 的所有交互数据 —— 无论是在 ChatGPT 中还是与 ChatGPT 的社交媒体互动,都可能被 OpenAI 用作训练语料。
随后发布的 GPTs(当时我们称为 OpenAI agent)也体现了这一点。
正如藏老师所说,
这让用户能更方便地使用 GPT,同时在享受便利的过程中,也在为 OpenAI 做数据标注。这是一个非常巧妙且不会引起太多反感的做法。
🚥 Koji
大家都在追求数据飞轮。在工具应用没有壁垒、难以形成社交飞轮的情况下,如何提升用户粘性成为关键。
到了第八天,ChatGPT 全量开放了搜索功能,搜索界面和体验都有了多项优化。二位体验下来感觉如何?
👦🏼 歸藏
我对 ChatGPT 的搜索功能没有太多感知(笑)。它的搜索质量和结果在移动 AI 搜索产品中并不出众,如果有其他选择,我会选择直接用 Google。
第九天的关键更新:结构化输出与 API 的重大突破
🚥 Koji
让我们跳到第九天。这天 OpenAI 发布了面向开发者的各种 API。大聪明在一开始时就特别提到了这一点。请大聪明给我们介绍一下第九天发布了什么,以及你为什么认为它如此重要。
👦🏻 大聪明
总的来说,从官方说明看,他们发布了:
-
OpenAI 的正式版 API(此前是预览版)。
-
R
e
al
time
API(高级语言交互 API)降价且提供了 SDK,不用再自己写兼容。
-
新增了一种称为「偏好微调」的新型微调方式。
为什么这很重要?
2023 年我们有了 agent,今年彭博社预测 AI agent 将爆发,我们会慢慢感知到这点,包括扣子的成长。
这些 agent 成长背后有个重要技术革新 ——
结构化输出
。举例说,让家里的灯调到一半亮度,灯只能接收如 JSON 格式的结构化信息(如「19 号灯,亮度 50%」),
AI 在这里可以充当翻译器
。
去年 GPT-4 0613 版本时,官方还没有标准的结构化输出方法。通过提示词技巧实现结构化输出时,将灯光从 78% 调到 50% 的成功率仅有
35.9%
。今年 4 月这一成功率提升至
75.3%
,5 月达到
86.4%
。
8 月 6 号更新带来了标准的结构化输出接口,在严格模式下输出质量能达到 100% 成功率。
这就是为什么 8 月 6 号后,我们看到 Cursor agent 版本等各类 agent 工具如雨后春笋般出现。
o1 是强大的思考工具。
如果想让它生产的内容作用于机械控制还是 IoT 控制,就需要结构化输出。
第九天发布前,o1 没有结构化输出功能,或需要用提示词技巧实现,但不稳定。
现在它支持了标准的结构化输出,可以 100% 将高质量思考用于设备控制。
Realtime API 也支持了结构化输出。
o1 需要较长思考时间,但很多场景(如关灯)不需要。
Realtime API 延迟
低于 300 毫秒
,说完 0.3 秒内就能关灯。另外,
Realtime API 每小时消耗 50 美元,这意味着产品化时需要找到每小时能赚 200 美元以上的应用场景
。
每小时要赚 200 美元以上的线上场景,而且只能通过语音聊天,这样的场景确实很难想象。
不过在 Realtime API 中,他们蒸馏出了一个 mini 模型,成本降到了每小时 5 美元。
虽然每小时赚 200 美元的产品找不到,但每小时赚 20 美元的场景是存在的,比如说给海外学生提供在线功课辅导。
正因如此,Realtime API 具备了商业实践的可能性。
新发布的 SDK 也很重要。并不是所有开发者都擅长处理语音模型,特别是之前用的 WebSocket 方案并不是很多人熟悉的。
有了新的 SDK 后,你可以直接调用模型,而且还支持很多人熟悉的 WebRTC 方案,这让 Realtime API 的商用变得更加容易。
这次更新还藏着一个没有明说的特性。以前我们说「端到端模型」,指的是语音到语音,中间不经过文字。
而这次更新带来了「多端到多端」模型。
它能同时接收你的文件信息、文字信息、语音信息、视频等多模态信息,同时输出可以包括文字、function call、语音。
有趣的是,它输出的文字和语音虽然有关联,但不一定完全一样,这意味着它不是顺序构建,而是同步构建的。
比如说我问 AI「为什么三个和尚没水喝」,
它能同时做三件事
:展示动画,用鼠标指向大和尚说「这是大和尚,他不想挑水,想让小和尚挑」,再指向小和尚说「这是小和尚,他不想挑水,想让大和尚挑」,同时还能讲述故事背景。
在第九天发布前,这种交互是不可能实现的。
这些内容官方并没有在发布会上详细说明,但如果仔细阅读文档,你会发现这才是第九天发布的核心。
🚥 Koji
在回顾这 12 天的内容时,有个提醒:OpenAI 很擅长营销,这 12 天的内容有不少是为营销而发布的,它并不一定代表最主要的技术进步和核心实力。另一方面,OpenAI 也身处激烈的竞争环境中,所以有些最强大的功能可能并未公开,他们还可能通过这 12 天的发布来影响竞争对手的思考和节奏。
因此,除了关注公开发布的内容,我们也要多留意那些未被公开的部分,说不定能发现一些有价值的洞察。
👦🏻 大聪明
另外一个发布的是偏好微调。偏好微调是指我可以定义 AI 的输出偏好,告诉它我喜欢什么样的表达方式。
这是一个更进阶的功能 —— 我不仅可以告诉 AI 我喜欢什么,还可以告诉它我不喜欢什么。
这有点像设置黑名单和白名单,我不需要在提示词里逐一说明「不能这样」「不能啰里八嗦」「不能说冗余的话」「要使用什么样的语言」,而是可以直接将这些偏好微调进模型,从而提升它的稳定性。
这些改进同时作用,奠定了未来一年 agent 爆发的可能性。
🚥 Koji
所以 2025 年是非常值得期待的一年。各行各业应该都能看到各种 agent 实现更好的落地应用。此前很多应用难以落地,最终实现的效果不够理想,无法取代足够多的人工工作。
虽然第九天是一个低调的发布,但经过大聪明的解读,发现它对整个应用生态的价值是巨大的。
👦🏻 大聪明
这里还有一个有趣的现象。在出现优化输出之前,我们与 AI 的所有交互都是通过 chatbot 的形式 —— 即便 AI 完成了很多任务,最终还是以聊天方式呈现结果。
但如果它配备 function cal,再结合各种 IoT 设备和其他技术,就能够与线下设备和商业世界建立起非常紧密的关联。
实时交互新体验:语音通话与屏幕阅读功能
🚥 Koji
第九天是一个非常硬核的日子。
而到了第十天,则变成了非常有趣的一天 —— ChatGPT 推出了电话服务,发布了一个 800 号码供用户与其通话。
不过这项服务只提供了 15 分钟的体验时间,让用户能简单感受一下与 AI 通话的未来场景。
第 11 天发布的其实是一个已经上线一段时间的功能,并非新功能 —— ChatGPT 的桌面版可以读取其他应用的屏幕内容,并基于这些内容与用户进行交互。
👦🏼 歸藏
由于大陆用户使用的具体问题,我还没有体验过这个功能,客户端也一直在尽量避免使用。不过我有一个疑问 —— 因为没有使用过,我不清楚它是读取整个屏幕还是仅读取特定内容。比如说在使用 Xcode 或者 VS Code 时,它是读取整个编辑器窗口的所有内容,还是只读取屏幕中被选中的部分。这两种方式的意义差别很大。
🚥 Koji
我理解它应该是可以读到内容的。
👦🏻 大聪明
它可以读取三个层级的信息:
-
首先是截屏内容,这是它一定能读取的。
-
其次是它能够直接读取软件里面的内容。