专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

Dots机构投资者社区 · 公众号 · · 2024-12-19 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：编辑部 HYZ

【导读】 OpenAI直播第九天，开发者们收到了一个超级大礼包。满血o1 API正式开放，实时API直接支持WebRTC，意味着未来人手一个Her。最最重要的是，API token直降60%。

OpenAI直播第九天，OpenAI向第三方开发者开放了最强模型o1。

API中的o1，可支持函数调用、开发者消息、结构化输出和视觉功能。

同时，在开发语音类App的API中，集成了更先进的GPT-4o版本，成本直降60%！

另外，用户和开发者可根据自己的偏好，用「偏好微调」轻松定制模型了。

Day 9，是名副其实的「对开发者最有用的一天」。

与此同时，团队还进行了了一场在线AMA，解答了开发者的诸多问题。

Day 9，给开发者的新功能

今天，OpenAI将正式在API中推出o1满血版。

自从9月推出o1-preview之后，开发者们已经在API上构建出了大量很酷的应用程序，比如智能体、客户支持、财务分析等，同时它的编程技能也很出色。

但开发者们反馈说，API中缺乏了一些核心功能，因此，OpenAI今天会一并推出这些新功能。

此外，还有一些小更新，比如推理强度参数。这是一个新的参数，告诉模型去花多少时间思考。

在解决简单问题时，这个参数可以节省许多时间和成本，在需要更多算力的复杂问题上，就可以花费更多资源。

开发者消息，视觉输入功能，函数调用功能

开发者消息功能，是系统消息的一种新形式，实际上是OpenAI指令层次结构工作的一部分。

它会用来教模型，按照什么顺序遵循哪种指令。因此，开发者可以完全控制开发者消息来引导模型。

此外，OpenAI还在API中推出了视觉输入功能。

很多用户强烈呼吁这个功能上线，可以想见，它在制造业、科学等领域，会提供非常大的帮助。

在demo中，研究者给了模型一份表格的照片扫描件，有若干张。

注意，研究者填写的时候，故意填错了一些数据。o1是否能检测出这些错误呢？

在开发者消息中，研究者要求模型找出错误。如果要正确找出，必须其他几张照片的扫描。

果然，模型注意到了某一行的算术错误，还注意到标准扣除额不准确这种非常细节的问题。

改正错误后，研究者提问道：如果我的应税收入是这个，我要缴纳多少所得税？

可以看到，o1在右侧提供了一组函数。

比如其中一个函数，就是以JSON架构呈现

这些操作都在应用程序后端完成，用户看不到任何函数调用或来自API的响应。

此外，研究者还定义了一个JSON架构，来规范响应的格式。

在上面这个「表单修正」架构中，包含了一组修正，每个修正都包含错误原因等内容，这样就可以向用户展示哪里出错了。

甚至还能为PDF渲染一个用户界面，高亮出出错的地方。在我们不想从模型中渲染Markdown时，结构化输出特别有用，它让我们可以直接自动提取JSON。

最终，模型正确输出了修正结果。

API使用场景评估

针对API用例，OpenAI研究者进行了一些评估。

首先，在函数调用功能上，新的o1模型在函数调用能力上显著优于GPT-4。

这包含了两个关键部分——在需要时调用正确的函数，以及在不需要时避免调用函数。

另外，我们还可以将函数调用与结构化输出结合。

可以看到，o1比起GPT-4，同样表现出色。

在结构化输出中，o1在评估中也显著优于其他模型。

这意味着，模型在指令遵循上的表示更佳，在给出特定条件约束时，偏离预期的可能性也更低。

在编码方面，o1在Livebench评估中，要远远优于o1-preview和GPT-4o，这是一个巨大的进步。

而在AIME评估中，o1再次显著优于o1-preview。

有趣的是，最右侧是带有结构化输出的o1。

在构建结构化输出时，研究者希望确保模型在使用此功能和未使用时表现同样出色。

可以看到，即使启动了此功能，模型的推理能力依旧保持。因此我们可以放心在应用程序中使用，不必担心结果的准确性。

另外，模型在延迟上的变化也很有趣。

o1使用的推理Token，比o1-preview少了60%，因此对应用程序来说，它的运行速度更快、成本更低。

最后，研究者强调，抱歉暂时不会在API中推出o1 Pro，虽然此类请求非常多。

从今天起，函数调用、编码、结构化输出、开发者消息和图像理解，就会向第五级用户开放了。几周时间内，将覆盖到所有用户。

实时API，Her可以自己构建了

Realtime API（实时API）在今年10月初，正式放出了公测版。

在OpenAI伦敦开发者日上，所有人或许早已对其强大的实时语音能力有所了解。现场，开发者体验主管Romain Huet秀如何通过实时API订购派。

想象一下，你可以直接通过这个API构建ChatGPT高级语音模式了！不论是订餐AI助手，还是旅游AI助手等等，有了它就可以实现许多非常酷炫的功能。

它能够支持网络传输协议WebSocket，因此，你可以通过服务器进行通信，发语音并接受响应。

而在今天，OpenAI正式宣布实时API将支持WebRTC——专为互联网而生。

我们常见的视频会议，或者低延迟的视频流传输，都采用了WebRTC。它能够实时处理互联网不断的变化，比如动态调整比特率、进行回声消除。

现在，实时API也能共享这些优势了。假设你要构建一个应用程序，能省去不少功夫，可以直接运行。

接下来，OpenAI研究人员展示了一个demo，如下是HTML代码，包含了一个音频元素，一个对等连接（peer connection），它代表着你和实时API之间的一对一连接。

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

正文

【导读】 OpenAI直播第九天，开发者们收到了一个超级大礼包。满血o1 API正式开放，实时API直接支持WebRTC，意味着未来人手一个Her。最最重要的是，API token直降60%。

开发者消息，视觉输入功能，函数调用功能

API使用场景评估

实时API，Her可以自己构建了

请到「今天看啥」查看全文