专栏名称: 歸藏的AI工具箱

产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔

OpenAI 史无前例的发布会：连续 12 天发布内容全解析

歸藏的AI工具箱 · 公众号 · AI 科技自媒体 · 2024-12-28 19:04

主要观点总结

文章回顾了OpenAI连续12天发布会的重点，包括o3的震撼发布，以及API的更新，展示了OpenAI在AI领域的持续进步和创新能力。提到了OpenAI API的更新、结构化输出能力的提升，以及API为AI应用开发提供的关键基础设施。同时，也提到了OpenAI在AI技术方面的多项创新，如Sora的发布，以及Canvas和Artifact功能的更新。最后，作者提到了对2025年的期待，认为AI将带来重大变化，解放人的创造力，并希望更多人能体验这些新工具，成为AI时代的积极行动者。

关键观点总结

关键观点1: OpenAI连续12天发布会的回顾

文章详细介绍了OpenAI在这12天内发布的一系列新产品和技术，包括o3的发布、API的更新、结构化输出能力的提升等，展示了OpenAI在AI领域的持续进步和创新能力。

关键观点2: OpenAI API的更新

API的更新为AI应用开发提供了关键基础设施，使得开发者能够更便捷地构建和部署AI应用。

关键观点3: 结构化输出能力的提升

结构化输出能力的持续迭代结果值得关注，这将极大促进AI agent，以及AI关联到现实世界的项目发展。

关键观点4: OpenAI的多项技术创新

OpenAI在AI技术方面有多项创新，如Sora的发布，以及Canvas和Artifact功能的更新，这些更新为用户提供了更好的交互体验，同时也为AI应用提供了更多的可能性。

关键观点5: 对2025年的期待

作者认为2025年将是AI技术飞速发展的一年，AI将带来更多变化，解放人的创造力，并希望更多人能体验这些新工具，成为AI时代的积极行动者。

正文

这一周的「十字路口」，我们邀请到歸藏和大聪明，一起来回顾 OpenAI 连续 12 天的发布会都发布了哪些新东西？除了让全世界惊叹的 o3 之外，还有哪些同样值得关注的新功能、新技术、新看点？

比如，大聪明认为，没有引起水花的 Day 9 发布特别值得注意：OpenAI API 的更新与 o3 的发布同等重要，因为它为未来 AI 应用的开发提供了关键基础设施。其中，结构化输出能力的持续迭代结果值得关注（从 36% 到 100% 的成功率提升），这将极大促进 AI agent，以及 AI 关联到现实世界的项目发展。

从第 1 天到第 12 天，我们将不仅逐一全面详实地介绍每天的发布，还会分享我们的亲身体验和见解。

插图由 Recraft 生成

🚥 OpenAI 12 天发布会纪录

🟢 Day 1: 满血 o1 ，ChatGPT Pro $200 会员，o1 Pro

🟢 Day 2: 基于 o1 的强化微调 RFT

🟢 Day 3: Sora

🟢 Day 4: ChatGPT Canvas

🟢 Day 5: 苹果全系接入 GPT

🟢 Day 6: 4o 实时视频通话、视频理解、屏幕理解、圣诞老人语音

🟢 Day 7: ChatGPT Projects

🟢 Day 8: ChatGPT Search 全量开放并优化体验，免费用户可用

🟢 Day 9: o1 API(支持 Function Call，并支持 Function Call 联网)、实时语音 API 更新/降价 & 发布 SDK、模型新增支持：PFT 偏好微调

🟢 Day 10: ChatGPT 的 800 电话、WhatsApp

🟢 Day 11: ChatGPT 桌面版可读取其他应用，且支持 o1 和 4o 高级语音

🟢 Day 12: OpenAI o3 正式发布！

👬🏻 嘉宾介绍

歸藏是「 AIGC Weekly ^[1] 」 Newsletter 和 「歸藏的 AI 工具箱」公众号 的主理人，这是全中文互联网我认为最最值得订阅的 AI 资讯周刊，我追更了两年，几乎是每个周末的必修课，获益良多。

大聪明是「赛博禅心」公众号的主理人，也是第二次来做客十字路口。

在我的朋友圈中，这两位都全程追踪了 12 天的发布会动态，我相信他们不仅能及时提供最新信息，还能确保内容的高质量。

微信收听播客：

小宇宙收听播客：

o3 的震撼发布：全新模型带来的技术突破与影响

🚥 Koji

好，我们开场的第一个问题想问二位「你们认为这 12 天的发布会，最值得关注的重点是什么？」

👦🏻 大聪明

大家好，我是大聪明。这个问题我先来回答。在我看来最值得关注的不是一个重点，而是两个。

第一个毫无疑问是 o3 的发布，它带来了一个完全遥遥领先的模型，虽然它很贵，回答一个问题可能需要 3500 美金，这个数值是 「我拿尺子量出来的」 。

第二个是它在发布期间隐藏了一个细节，在第九天左右提到了一个开发者更新。这个更新既包括了 Realtime 的 API 更新，也包括了对 Go 语言的支持。但最核心的是它允许在 o1 以及 Realtime 时进行结构化输出，这对明年的 AI agent 爆发埋下了伏笔。这两点是我认为非常重要的。

🚥 Koji

好，我们待会儿可以展开聊聊这两点：o3 的发布和在第九天针对开发者发布的一系列 API。

那藏师傅，在你看来最值得关注的重点是什么？

👦🏼 歸藏

我是歸藏，我觉得也是 o3 这个毫无疑问是最值得关注的。

因为说实话，OpenAI 一直在引领整个行业的方向。虽然它有些地方不是做得最好的，但在行业遇到困境时，它一定会给出一个新的路径。

前段时间不是一直说预训练到头了吗？在 o3 上我们就看到了突破性的结果。虽然在 o1 上还没有那么明显，没有让人那么坚信这个推理的进化方向，但在 o3 上我们看到了很明显的进步和进展。我觉得这对整个行业的信心，包括投资等方面的信心提振都是非常大的，这点还是很重要的。

🚥 Koji

可不可以用什么样的方式让大家感受一下 o3 到底有多强？

👦🏻 大聪明

一个最直接的例子就是有个程序员大神榜。在 Codeforces 上，这是一个比 LeetCode 更硬核的编程竞技平台。

很多非常优秀的程序员都会在里面参与。比如 OpenAI 现任的首席科学家，他在 Codeforces 的得分是 2655 分。而这一次的 o3 的编程得分是 2727 分，就是超过了 OpenAI 首席科学家一大截。如果放在现行的榜单里面，能够排到人类第 175 名，这是非常离谱的一件事情。

🚥 Koji

这个 o3 还有一个惊人的数字，它每完成一个单任务大概需要 3500 美金，相当于 2 万人民币。

我看到大聪明也在公众号写道，你去问 o3 一个问题：「9.09 和 9.11 到底谁是更大的数字？」，这个问题一问，2 万人民币就没了。这是不是也说明了背后还是可以在计算能力上继续创造奇迹？

👦🏻 大聪明

这里其实有个小细节，o3 在比照 o1 时，有两个版本。

一个是低算力版本，计算一次任务量大概需要 20 美金，可能未来我们用的就是这个版本。另一个是高计算量版本，也是更详细的模式，它的计算量是低计算量版本的 170 多倍。算下来就是 3500 美金。

从 3.5 美金到 3500 美金，大概是 1000 倍的增幅。

👦🏼 歸藏

所以他那个低计算量模式，我看他在 ARC 测试集上达到了 75% 多的结果，这个版本是 20 美金一次。这样算的话其实还好。

👦🏻 大聪明

我们看到那个 performance 表单时，会发现一个很有趣的事情：

正确率的百分比和消耗算力的指数是呈线性关系的。我们可以拉出一条近乎直线，就是计算量每增加十倍，我们的准确度就会增加一个固定的百分比。

🚥 Koji

10% 到 20% 之间。

👦🏻 大聪明

这件事情就意味着，如果我们要在这个测试集上达到 100% 的正确率，算力成本将是天价。

而这还不算完，在新的测试集里，我们看到 o3 的高计算量模式能够达到 88% 的正确率，但在第二版的 ARC 榜单里，它的正确率就只有 30% 了，还会被进一步压缩。

如果我们按照 ARC 测试集的标准来实现 AGI，即便是当前的计算成本可能都要在百万美金以上。

🚥 Koji

我也看到歸藏师傅在即刻上发了一条很长的内容，讲述 o3 带给你的一些感受。你还提到了一个非常强的说法，你说「可能在未来几年，我们会像记住 ChatGPT 的发布时间一样，记住昨天晚上 o3 发布的时刻。」

是什么原因让你对 o3 的发布这么兴奋，认为它是里程碑式的事件？

👦🏼 歸藏

其实这些是整理的一些大佬们的说法。

陶哲轩提到技术人本来能顶住大语言模型可能好几年，但现在一下被拉到了 25% 的成功率。包括前面提到的那些程序员竞技榜单，这代表了一个非常令人憧憬的未来。

从 o1 到 o3 只用了三个月就达到这样的进步。如果这个缩放定律继续下去，明年上半年我们会不会有 o4、o5？

如果 o4、o5 发布的时候，就不说其他领域，只谈数学和代码这两个领域，人类是不是就彻底无法追上它了？说实话代码其实是我们构建整个软件世界的基石，所以这会带来非常大的变化。

👦🏻 大聪明

这要补充一个关于 AGI 的信息，是上一次参加 Open AI 线下活动时 Mark 的分享。

这次 o3 发布时，开场就是 Mark 和 Sam Altman 一起分享的。Mark 提出了一个有趣的观点：

我们什么时候到达 AGI 取决于我们对 AGI 的定义。很快我们会到达我们所定义的 AGI，而那时我们会对 AGI 再有一个新的定义，然后不断追赶。

OpenAI 选取了 ARC 作为 AGI 评测的合作伙伴。ARC 提到了一个主流的 AGI 表述：能把大部分有价值的经济工作进行自动化的系统。如果以这个为标准，我们可以认为 o3 已经近乎达到了 AGI。但很快，随着我们达到这个 AGI 标准，我们又会有更高更新的标准。

🚥 Koji

这很有趣，就是关于 AGI 到底应该如何定义。之前大家一直没有达成过共识。在 ARC 的定义里，真正的智能是指能做有经济价值的工作。

这也意味着，AI 去安慰你的情感或者共情你的感受，这些并不在他们的 AI 定义范畴里。

👦🏻 大聪明

于是就给出了一个新的定义：

AGI 并不是指你有多少技能，因为技能是可以通过训练获得的，而是你有多会学习。

一个婴儿，按照我们最朴实的想法，我们天生认为他 / 她是 AGI。但是他什么技能都不会，他既不会编程，更不用说达到人类前 175 名的水平。但是他很会学习，他可以从零掌握语言，他可以学会用筷子，他会用哭声表达需求。

那么我们对于 AGI 的定义，是不是要从「有多少技能」变成「能够在之后自主学会多少东西」。

12 天发布会回顾：从满血版 o1 到实时视频通话

🚥 Koji

我们先快速回顾这 12 天发布了什么，然后再详细展开讨论每一天的内容。

第一天，满血版的 o1 上线。同时 ChatGPT 推出了争议很大的 Pro 会员，定价 200 美元一年。同时这天还发布了 o1 Pro。

第二天，发布了强化微调 RFT。

第三天，是正式版的 Sora 终于发布。

第四天，推出了对标 Claude Artifacts 的 Canvas 功能，这是一个交互上的变化。

第五天，比较平淡，主要是宣布苹果全系接入了 GPT。

第六天，临近圣诞节，发布了 4o 的实时视频通话和视频理解功能。它可以理解实时视频流，也可以理解你过去分享的屏幕，并根据视频流和屏幕内容来实时问答。因为圣诞节将至，还可以给圣诞老人打电话。

第七天，发布了 Projects 功能，这其实是 Claude 早就有的功能。

第八天， ChatGPT 的搜索功能全量开放，连免费用户都可以使用。做了很多细节优化，比如可以在浏览器地址栏直接搜索，还能搜索视频，同时把 4o 的实时语音接入了搜索。

第九天，发布了 o1 的 API，是一系列面向开发者的接口。待会儿我们请大聪明详细讲讲，因为他认为这和 o3 同样值得关注。

第十天，的发布稍显平淡，主要是支持给 ChatGPT 打电话，还推出了 WhatsApp 聊天机器人。

第十一天，是重申之前发布的 ChatGPT 桌面版，可以读取其他应用的内容。这样就不用总是截图发给 ChatGPT，而是可以直接让它看屏幕内容并回答问题。这里可以支持调用 o1 模型，也可以用 4o 实时语音对话。

第十二天，就是我们刚才讨论的重磅发布 o3，让全行业震惊。

我们回到第一天，当时很多人都是很期待的。我相信藏师傅和大聪明你们应该也熬夜看了发布会。可以谈谈当时看到 o1 Pro 和 ChatGPT Pro 200 美元会员时的感受吗？

👦🏻 大聪明

我最大的感受是：第一，他疯了吗？200 美元已经远超出大家的正常支付习惯了，真的会有大冤种去买吗？第二，我买了（大冤种），然后用了这个 o1 Pro，发现真香。

我经常会和 AI 或者说 ChatGPT 一起思考一些东西，比如项目怎么做、事情怎么规划。我在和 4o 对话时，基本上是我说一个东西，它就顺着我的话把内容补全，有时候补得还乱七八糟，我要纠正很多次。但用了 o1 Pro 后，它能在一次对话中就把我所需要做的事拆分得非常清楚。这样就省去了我一小时反复修订的时间，让我觉得太值得了。

🚥 Koji

我看到还有一个说法，说 200 美元的 Pro 会员之所以值得，是因为它有点像一个可以无限对话的、7x24 小时随时在线的「Her」 ——就像那部科幻电影一样，因为你可以实时地开始无限次和 4o 进行语音对话。

藏师傅在发布会的第一天有买到这个会员去使用吗？

👦🏼 歸藏

第一天我没有买这 200 美元会员，当时觉得确实是冤种才会买。

对于 o1 Pro，当时看他们测试时用了很多推理方式。我觉得这也是他们宣发的一个问题，就是他们选用的案例，当然要测试智能，用推理去做数学、做物理是可以的。

但你需要穿插一些普通用户真正会用到的案例，来体验它有多强。他们缺失了这个功能，导致我的感知是：好，你的物理和数学很强，但对我没用，因为我并不知道它在真正的开放域智能方面到底有多少提升。

但后来是因为为了 Sora 才去开的。我用了之后才发现，它对于开放域的问题，就像大聪明说的，在讨论问题时会给出很全面而且新颖的观点，并且回答很有结构性，所以这个确实挺值的。

🚥 Koji

可以讲一个具体的例子吗？就是你用 o1 pro 做了什么？

👦🏼 歸藏

我昨天第一次试用时，想写一个我与 AI 的年度总结。因为想说的事情特别多，就想让它给出一个大纲或一些可以写的方向。它给出的方向很值得参考。我们知道写东西时会遇到一个问题：你去找 4o 或者 Claude 的时候，它会像大聪明说的，要么重复你说过的事情，要么说一些很显而易见的事情，或者跟你的职业和经历完全无关的内容。

但 o1 Pro 不会这样，它真的给出了非常有建设性的意见，你完全可以按照它的大纲一步步写完。这个很厉害，但这种厉害是很感性的结果，你没法用语言描述它有多厉害。只有当你自己看到它的回答时，才会觉得：这就是我要的东西。

👦🏻 大聪明

这里我再补充一个信息，刚才提到如果你是 Pro 会员，可以无限使用它的高级语音模式。如果你用 API 的方式，高级语音模式平均每小时要消耗 50 美元。

假如你特别喜欢和 AI 聊天，只要聊够 4 个小时，这 200 美元就赚回来了。

🚥 Koji

说实话我真的和 4o 聊会有一种和真人聊的感觉。

👦🏼 歸藏

4o 的问题我觉得主要是两个：一个是响应不够快，另一个就是太贵。而且手机一开启就会很烫，可能是它的实现方式有问题。相比之下，谷歌的 Gemini 我就完全没有这些负担。

我和 4o 对话有时会有负担，一是因为它很贵，二是它看起来做得很重。但和 Gemini 聊天就没有这个负担。虽然它现在只会说英语，但我可以很随意地聊，而且它的响应比我们这边要快很多，可能是因为模型比较小。这也是我用下来觉得它很强的一个地方。

🚥 Koji

其实在这 12 天期间，Gemini 也发布了 2.0。虽然它受到的 PR 关注肯定不如 OpenAI，但我感觉它的口碑非常好。我们待会儿也会和大家分享一下我们几个人使用 Gemini 2.0 的体验。

好，我们来看第二天。第二天发布的是基于 o1 的一个强化微调，叫 RFT。可以请你们来给大家介绍一下 RFT 是什么吗？

👦🏻 大聪明

比如说你希望 GPT-4o 在说话时非常简明精炼，但它自己做不到，你就需要对它进行微调，给它非常多的样本，让它在之前的基础上进行学习。

o1 其实并不能完全归入传统的大语言模型范畴，它是一个大模型结合 Agent 的聚合物，只不过它把 Agent 这一块做到了大模型里面，它会自主反思。

对于传统意义上的微调就不再适用了。如果希望 o1 的输出有一定的倾向性，无论是思考方式还是输出样式，都需要对它进行新的微调。于是就有了一个针对 o1 的微调方式 RFT，它其实是原来 FT 的一个变种。它的目标对象从原来的大模型变成了 o1 这一种 Agent 形式的大模型。

🚥 Koji

明白。所以这一个发布其实当天也是没有引起特别多的关注。是因为其实它带给 C 端用户的体验不是那么直接。

👦🏻 大聪明

不仅是对 C 端用户不直接，对 B 端或开发者端也是如此。因为 o1 太贵了，正常情况下不会把它放到模型里，成本打不过来。而微调的成本还会比直接使用 o1 更高。所以做项目时，绝大多数情况下暂时还不会考虑使用它。

但从另一个层面来说，我们知道模型会不断降价。如果它的成本降到比较亲民的水平，同时你还有类似的需求，相信会有不少开发者对它进行微调。

Sora 正式发布：视频生成能力的突破与不足

🚥 Koji

到了第三天，在发布会开始前的 12 个小时，谣言就满天飞，说当晚要正式发布 Sora。那天确实有不少人熬夜守候。Sora 最终发布后，反响却是毁誉参半，对它的质疑声音甚至逐渐增多。

藏师傅，你刚才提到在 o1 和 o1 Pro 这两个满血版本发布时，你没有充值 200 元开通会员。但 Sora 却让你付费开通了会员，能否和我们分享一下你开通会员后使用 Sora 的体验？

👦🏼 歸藏

如果你是 Plus 会员（20 美元），只能生成最高 720P 的视频，而且仅限生成十几个视频就会用完额度。如果要用它做正式的视频创作，就必须充值 200 美元的会员。所以我最终选择了付费。

充值后我发现它有两个主要方面。一方面，它的功能确实很精细，比如故事版功能允许你连续输入多个视频，它会通过首尾帧或其他方式帮你做转场，将所有片段连接成一个完整视频。这在交互和功能性上确实做得很好。

说到模型本身，我们先看看模型的基础能力。以文生视频为例，它在质量表现最好时确实很出色，但这种高质量输出非常有限。可以说它比当前最好的视频模型也就好那么一点点，达到了一流水准。

视频模型的训练过程其实和语言模型类似，需要先有个文生视频模型，再基于图像做图生视频微调。但在图文转视频方面，它的微调明显不足，给人一种仓促完成的感觉。如果他们认真训练，不会是现在这个状态。我们对图片转视频最基本的要求就是能动起来，不管效果好坏。但现实是 90% 的情况下，你输入一张图，等待几分钟，花费了几块钱的积分，最后输出的还是一张静态图片。

这种情况令人非常恼火，这已经不是服务质量或模型性能的问题，而是一种非常恶劣的商业行为。你宣传的功能完全不可用，还收取如此高昂的费用，这本质上就是欺骗用户。

🚥 Koji

哇，这是一个非常严重的批评。

👦🏼 歸藏

是的，这确实是个诚信问题。你为了使用这个功能支付了 1500 元人民币开通月度会员，但实际上这个功能几乎完全无法使用。

🚥 Koji

大聪明，你有什么想要补充的吗？

👦🏻 大聪明

虽然我不是专业的视频创作者，但它的无限循环和故事版这两个功能对我来说确实是个惊喜。

🚥 Koji

谈到 Sora 这次发布，还有一个值得注意的细节。在前几天我们和 Monica Founder 肖弘录播播客的时候，他提到这次 Sora 没有发布 API，这在 OpenAI 的历史上是很罕见的。

这似乎表明，在今年对 OpenAI 来说，开发应用的重要性似乎超过了提供 API。

👦🏼 歸藏

我觉得核心目的有两个：获取数据和提高市场占有率，占据用户认知。

所以对于其他公司来说，开发应用一直是最重要的方向。因为我们都知道，单纯发布 API、售卖 token 是没有壁垒的，也无法形成规模效应。你一定要做成产品，通过独特的功能留住用户，扩大用户规模，让用户形成对产品的依赖，这才是正确的路径。

Canvas 与 Artifact：两种不同的产品设计理念

🚥 Koji

说到大模型厂商需要开发应用、增加功能来提高用户粘性，我们正好可以聊聊第四天发布的 Canvas 功能。不过值得一提的是，Claude 在半年前就推出了 Artifact 功能，当时获得了很多好评，确实能显著提升生产效率。

关于这一点，请二位介绍一下 Canvas 是什么，如果可以的话，也请比较一下它与 Artifact 的区别。

👦🏻 大聪明

我来解释一下。先说 Artifact，它其实是这样工作的：当大模型生成 HTML 或者带 JS 的前端代码时，它可以在 Claude 界面中直接渲染出这个页面，让你实时看到效果。同样，如果生成的是 Markdown 内容，也能直接在浏览器中渲染并预览。这个功能对于检查前端代码的效果非常有帮助。

而 ChatGPT 的 Canvas 功能最初是从它的代码解释器功能演化而来。比如你让它写一个解决鸡兔同笼的算法，它不仅会在代码框中展示代码，还能直接运行并显示结果，背后其实是运行着一个 Python 服务器。后来这个功能得到了扩展，除了运行代码外，还能展示各种文本内容，并且支持对文本进行编辑修改。

🚥 Koji

我看到过网上一个很有趣的使用案例：一个用户让 ChatGPT 为他的论文做批注，并特别要求用哲学系教授的风格。最终在 Canvas 中呈现的效果很像 Word 文档的批注格式 —— 原文在主区域显示，批注内容则在侧边栏中展示，并能准确指向原文中被评论的具体段落。

这个功能确实让人惊喜。相比之前简单地请大模型修改文章，这种交互方式在体验上有了很大的提升和进步。

👦🏻 大聪明

OpenAI 最近确实低调发布了很多功能，没有开发布会，也没有任何新闻露出，这点很有趣。

比如你刚才提到的文章批注功能，其实是基于 OpenAI 上个月悄悄推出的 Predicted API（或称预测模式）。这个功能可以让你输入一篇文章，告诉它修改要求，它就能快速标记出需要修改或订正的地方，并给出修改建议。

我认为 Canvas 中的批注功能很可能就是运用了这项一直在线但未正式发布的技术。

🚥 Koji

对，这个其实还真的挺有用的。我之前一直在用 Notion AI，会在 Notion 里面请它直接帮我改东西。但它也就是直接改了就改了。不像是请一个同事或一位律师帮你改文件时，他会保留修订记录，然后你自己去决定要不要接受这一点，拒绝下一点。不过现在 OpenAI 也可以做到这一点了。

👦🏻 大聪明

然后这里面还有一个很有趣的点，就是因为它只是修订，而不是重写。它可以快速处理一长篇的内容，并且保持你的主体结构不变。这个功能除了在修订文章之外，在修改代码上面也非常有用。

很多时候你让它修改代码时，因为你的代码会和其他的老代码做交互，一旦动了结构，有时候会非常麻烦。如果它只是修改某些参数，并且能同时处理这些参数之间的关联，就会非常实用。这一块也是预测性输出的一个用法。

🚥 Koji

藏师傅有没有什么要补充的？

👦🏼 歸藏

负责开发这个功能的人在 10 月 4 号分享过一些内容，讨论了她对这个功能的核心思考。

她提到了两个关键点：一是尽量不让用户去思考什么时候该触发、该用什么功能，而是让 AI 来做决定。这是一个展示性的方案，用更友好的方式去展示一些不适合在对话中呈现的内容，比如长文本、文案和外部渲染等。

而 Canvas 那个作者的想法则不同，她想要打造 AGI 的终极界面。在她的想象中，这个终极界面是一个空白画布，用户可以随意调整。

她的核心理念是希望将其打造成一个创作伙伴，去帮助和指导创作。这也解释了为什么前面提到的批注功能如此重要 —— 它完美符合创作伙伴的定位。我们可以参考现实中同事间的协作方式：同事会评论你的作品，给出建议，而你可以选择接受或拒绝。在代码 review 时也是如此，可以做一些标注或注释，由你决定是否采纳。

它本质上是以创作伙伴的形式设计的功能，这与前面提到的展示性方案有着根本的区别，因此衍生出了很多不同的功能。比如说 canva 其实做得很重，很多功能都在模拟一个创作伙伴应该对内容做的事情。而 artifact 的愿景其实很简单，就是为对话中不易展示的内容提供更合适的展示形式。这是导致两者功能设计差异的核心原因。

实时视频与项目管理：AI 交互方式的创新与发展

🚥 Koji

我觉得这其实反映了产品哲学的不同。说到这里，2025 年有一个非常值得期待的点，就是在传统 chatbot 交互之外，大家会发现很多新的交互方式。这种创新已经在很多地方开始萌芽了，不只是在 AI coding、Cursor，也不只是 Davin 带来的 agent 模式，还包括 Canvas、Recraft 的文生图和图生图，以及 Recraft 无限白板这样的图片编辑模式。这些产品创新已经多到有点数不过来了。

上周和 Monica 肖弘录播客时，他提到 2024 年有点 boring，因为感觉还是 ChatGPT 3.0 发布的 chatbot 这样的交互形式的线性外推。但 2025 年特别值得期待的一个原因，就是各种与 AI 交互的用户体验方式已经在如雨后春笋般涌现。

到第五天，感觉像是给苹果站台，就像一个公关发布会，发了一篇 PR 文章告诉大家可以在苹果设备上用 ChatGPT 了。这个没什么特别好讲的。

到了第六天，是关于 4o 的实时视频通话和视频理解功能，包括和圣诞老人的通话。这个在社交媒体上引起了一些小水花，因为很多博主会用 ChatGPT 去和圣诞老人聊天开玩笑。

你们看到第六天的发布后，有什么感受或想法吗？

👦🏼 歸藏

高级实时语音是一个非常极致的功能，也是最能让人感受到 AI 智能的方式。

普通用户可能不理解 o1 或 o3 有什么意义，觉得「我也用不着」。但对于实时语音通话来说，普通用户会觉得「这个东西真的好厉害」，因为它模拟了科幻电影中才存在的场景。所以在小红书或抖音上，只要发布使用实时语音做的一些事情，比如有研究生用它来识别化学药剂，让它指导自己配实验，或者是和 GPT 谈恋爱这类内容，都很容易引起普通用户的共鸣，真的很戳人。

🚥 Koji

对，包括练习口语、模拟面试，这些功能都变得很实用。我自己也试了一下，因为同期 Gemini 2.0 也发布了类似的功能，可以打开摄像头，直接举一个东西问它「这是什么」，识别率还蛮准的。我甚至指着墙上的一张海报问它，「这是一个电影节的海报，你能告诉我这是哪一年什么电影节的海报吗？」它也都能给出相应的猜测。

👦🏻 大聪明

我补充一点信息，这一天发布的两个主要卖点是视频通话和屏幕共享。

先说视频通话，如果我们回看 OpenAI 过去一年的对外投资和合作，会发现这家公司涉及了很多线下和硬件相关的场景。如果 ChatGPT 能够很丝滑地教你煮咖啡、做化学实验，这个功能就可以迁移到他们之前投资的那些硬件产品中，这就会变成一个相当「王炸」的功能。我们会发现这里面的技能点和技术路线是一致的。

比如说化学实验，现在是用摄像头去对着化学设备。如果这个摄像头和 GPT 直接内置在化学仪器里，再和机械臂结合，就可能会变成自动化的流程。

再说共享屏幕，大家可能记得去年微软发布了一个叫做 Copilot 的品牌。其中一个很有趣的点是，你可以和电脑相互对话，让电脑自主完成一些任务。这需要把页面信息传给助手，这个功能据传可能被搁浅了。但在 ChatGPT 这次的发布中，它可以监控其他应用的信息。虽然我不清楚它的监控程度，但这可能是与苹果的合作，能够获取较深层的信息。在移动设备上，这就变成了一个额外的辅助工具。比如炉石玩家可以边打游戏边问它下一张牌该怎么出。

后面在第 11 天还会发布一个客户端功能，也是类似的。它可以理解你屏幕上的内容，不管是编程、游戏，还是聊天，理论上都可以给你提供回复建议和指导。

🚥 Koji

我们待会儿还会聊到，在后面第 11 天的时候，他还发布了一个客户端功能，也是类似的。它可以读取和理解你屏幕上的内容，不管是编程，还是你在玩什么游戏，甚至是你在和别人聊天，它都可以给你一些如何回复的指导，理论上都是可以实现的。

👦🏻 大聪明

这种做法其实说白了，就绝了很多 Copilot 产品的路子。

🚥 Koji

这让人想到 AI 创业的经典困境：当 OpenAI 这样的大模型公司发布新功能时，你会同时感到兴奋和绝望。

第七天发布的是项目功能，你可以把一个项目里的各种文件全部放到一个文件夹里，然后与这个文件夹进行对话。这样模型就有了知识库和上下文，可以给出更好的回复。这其实是 Claude 在半年前就有的功能，OpenAI 现在才加上。

这个功能做出来之后，二位看到一些有趣的用法吗？

👦🏼 歸藏

具体的预训练或模型训练细节我可能不太了解。但这个功能和刚才说的 artifact 功能有个特点：在推理过程中，或者说在模型训练过程中，我们需要对语料进行分析和归类，识别高质量语料，然后将这些合成数据用于再训练。

这里有个核心问题，就是很多内容都是开放性的，语言模型输出内容的对话价值不太好验证，如果想拿去再训练，可能会有一些问题。这两个功能在某种程度上解决了这个问题。

比如说 project，我放在 project 里的所有文件以及对话，基本都是一个主题的。如果对话人数多，我们通过其他数据筛选方式也能筛出来。这就解决了优质对话归类的问题，同时还附带一些现实中可能的非合成数据语料。这对模型训练或数据收集很有帮助。

artifact 也是一样。Claude 的 artifact 实际上在分享，我只需分析分享的数量和点击量，就能判断大语言模型生成代码的质量，它与代码质量或对话质量是正相关的。那么在代码这一层面或长文本层面，我就能筛选出来作为语料，这样就减少了筛选成本。对于模型训练本身或数据收集都有非常好的正向作用。我们可能会在很多其他优秀的 AI 项目中看到越来越多这种设计。

🚥 Koji

我看到官方有一个很好的例子 —— 把求职者的各种简历、社交媒体链接等资料都放到了同一个项目里面。通过这样的方式，模型就可以更好地了解你这个人是谁。有了这些信息，你就可以让 OpenAI 为你提供一些职业上的建议，或者和你进行模拟面试。

👦🏻 大聪明

去年年底时，OpenAI 更新了隐私协议，其中提到作为 ChatGPT 用户，你与 OpenAI 的所有交互数据 —— 无论是在 ChatGPT 中还是与 ChatGPT 的社交媒体互动，都可能被 OpenAI 用作训练语料。随后发布的 GPTs(当时我们称为 OpenAI agent)也体现了这一点。

正如藏老师所说，这让用户能更方便地使用 GPT，同时在享受便利的过程中，也在为 OpenAI 做数据标注。这是一个非常巧妙且不会引起太多反感的做法。

🚥 Koji

大家都在追求数据飞轮。在工具应用没有壁垒、难以形成社交飞轮的情况下，如何提升用户粘性成为关键。

到了第八天，ChatGPT 全量开放了搜索功能，搜索界面和体验都有了多项优化。二位体验下来感觉如何？

👦🏼 歸藏

我对 ChatGPT 的搜索功能没有太多感知（笑）。它的搜索质量和结果在移动 AI 搜索产品中并不出众，如果有其他选择，我会选择直接用 Google。

第九天的关键更新：结构化输出与 API 的重大突破

🚥 Koji

让我们跳到第九天。这天 OpenAI 发布了面向开发者的各种 API。大聪明在一开始时就特别提到了这一点。请大聪明给我们介绍一下第九天发布了什么，以及你为什么认为它如此重要。

👦🏻 大聪明

总的来说，从官方说明看，他们发布了：

OpenAI 的正式版 API(此前是预览版)。
R e al time API(高级语言交互 API)降价且提供了 SDK，不用再自己写兼容。
新增了一种称为「偏好微调」的新型微调方式。

为什么这很重要？ 2023 年我们有了 agent，今年彭博社预测 AI agent 将爆发，我们会慢慢感知到这点，包括扣子的成长。这些 agent 成长背后有个重要技术革新 —— 结构化输出。举例说，让家里的灯调到一半亮度，灯只能接收如 JSON 格式的结构化信息(如「19 号灯，亮度 50%」)， AI 在这里可以充当翻译器。

去年 GPT-4 0613 版本时，官方还没有标准的结构化输出方法。通过提示词技巧实现结构化输出时，将灯光从 78% 调到 50% 的成功率仅有 35.9% 。今年 4 月这一成功率提升至 75.3% ，5 月达到 86.4% 。

8 月 6 号更新带来了标准的结构化输出接口，在严格模式下输出质量能达到 100% 成功率。这就是为什么 8 月 6 号后，我们看到 Cursor agent 版本等各类 agent 工具如雨后春笋般出现。

o1 是强大的思考工具。如果想让它生产的内容作用于机械控制还是 IoT 控制，就需要结构化输出。第九天发布前，o1 没有结构化输出功能，或需要用提示词技巧实现，但不稳定。现在它支持了标准的结构化输出，可以 100% 将高质量思考用于设备控制。

Realtime API 也支持了结构化输出。 o1 需要较长思考时间，但很多场景(如关灯)不需要。 Realtime API 延迟低于 300 毫秒，说完 0.3 秒内就能关灯。另外， Realtime API 每小时消耗 50 美元，这意味着产品化时需要找到每小时能赚 200 美元以上的应用场景。

每小时要赚 200 美元以上的线上场景，而且只能通过语音聊天，这样的场景确实很难想象。不过在 Realtime API 中，他们蒸馏出了一个 mini 模型，成本降到了每小时 5 美元。虽然每小时赚 200 美元的产品找不到，但每小时赚 20 美元的场景是存在的，比如说给海外学生提供在线功课辅导。正因如此，Realtime API 具备了商业实践的可能性。

新发布的 SDK 也很重要。并不是所有开发者都擅长处理语音模型，特别是之前用的 WebSocket 方案并不是很多人熟悉的。有了新的 SDK 后，你可以直接调用模型，而且还支持很多人熟悉的 WebRTC 方案，这让 Realtime API 的商用变得更加容易。

这次更新还藏着一个没有明说的特性。以前我们说「端到端模型」，指的是语音到语音，中间不经过文字。而这次更新带来了「多端到多端」模型。它能同时接收你的文件信息、文字信息、语音信息、视频等多模态信息，同时输出可以包括文字、function call、语音。有趣的是，它输出的文字和语音虽然有关联，但不一定完全一样，这意味着它不是顺序构建，而是同步构建的。

比如说我问 AI「为什么三个和尚没水喝」，它能同时做三件事：展示动画，用鼠标指向大和尚说「这是大和尚，他不想挑水，想让小和尚挑」，再指向小和尚说「这是小和尚，他不想挑水，想让大和尚挑」，同时还能讲述故事背景。

在第九天发布前，这种交互是不可能实现的。这些内容官方并没有在发布会上详细说明，但如果仔细阅读文档，你会发现这才是第九天发布的核心。

🚥 Koji

在回顾这 12 天的内容时，有个提醒：OpenAI 很擅长营销，这 12 天的内容有不少是为营销而发布的，它并不一定代表最主要的技术进步和核心实力。另一方面，OpenAI 也身处激烈的竞争环境中，所以有些最强大的功能可能并未公开，他们还可能通过这 12 天的发布来影响竞争对手的思考和节奏。

因此，除了关注公开发布的内容，我们也要多留意那些未被公开的部分，说不定能发现一些有价值的洞察。

👦🏻 大聪明

另外一个发布的是偏好微调。偏好微调是指我可以定义 AI 的输出偏好，告诉它我喜欢什么样的表达方式。这是一个更进阶的功能 —— 我不仅可以告诉 AI 我喜欢什么，还可以告诉它我不喜欢什么。这有点像设置黑名单和白名单，我不需要在提示词里逐一说明「不能这样」「不能啰里八嗦」「不能说冗余的话」「要使用什么样的语言」，而是可以直接将这些偏好微调进模型，从而提升它的稳定性。

这些改进同时作用，奠定了未来一年 agent 爆发的可能性。

🚥 Koji

所以 2025 年是非常值得期待的一年。各行各业应该都能看到各种 agent 实现更好的落地应用。此前很多应用难以落地，最终实现的效果不够理想，无法取代足够多的人工工作。

虽然第九天是一个低调的发布，但经过大聪明的解读，发现它对整个应用生态的价值是巨大的。

👦🏻 大聪明

这里还有一个有趣的现象。在出现优化输出之前，我们与 AI 的所有交互都是通过 chatbot 的形式 —— 即便 AI 完成了很多任务，最终还是以聊天方式呈现结果。但如果它配备 function cal，再结合各种 IoT 设备和其他技术，就能够与线下设备和商业世界建立起非常紧密的关联。

实时交互新体验：语音通话与屏幕阅读功能

🚥 Koji

第九天是一个非常硬核的日子。而到了第十天，则变成了非常有趣的一天 —— ChatGPT 推出了电话服务，发布了一个 800 号码供用户与其通话。不过这项服务只提供了 15 分钟的体验时间，让用户能简单感受一下与 AI 通话的未来场景。

第 11 天发布的其实是一个已经上线一段时间的功能，并非新功能 —— ChatGPT 的桌面版可以读取其他应用的屏幕内容，并基于这些内容与用户进行交互。

👦🏼 歸藏

由于大陆用户使用的具体问题，我还没有体验过这个功能，客户端也一直在尽量避免使用。不过我有一个疑问 —— 因为没有使用过，我不清楚它是读取整个屏幕还是仅读取特定内容。比如说在使用 Xcode 或者 VS Code 时，它是读取整个编辑器窗口的所有内容，还是只读取屏幕中被选中的部分。这两种方式的意义差别很大。

🚥 Koji

我理解它应该是可以读到内容的。

👦🏻 大聪明

它可以读取三个层级的信息：

首先是截屏内容，这是它一定能读取的。
其次是它能够直接读取软件里面的内容。

OpenAI 史无前例的发布会：连续 12 天发布内容全解析

主要观点总结

关键观点总结

关键观点1: OpenAI连续12天发布会的回顾

关键观点2: OpenAI API的更新

关键观点3: 结构化输出能力的提升

关键观点4: OpenAI的多项技术创新

关键观点5: 对2025年的期待

正文

🚥 OpenAI 12 天发布会纪录

👬🏻 嘉宾介绍

o3 的震撼发布：全新模型带来的技术突破与影响

12 天发布会回顾：从满血版 o1 到实时视频通话

Sora 正式发布：视频生成能力的突破与不足

Canvas 与 Artifact：两种不同的产品设计理念

实时视频与项目管理：AI 交互方式的创新与发展

第九天的关键更新：结构化输出与 API 的重大突破

实时交互新体验：语音通话与屏幕阅读功能

请到「今天看啥」查看全文