专栏名称: APPSO

让智能手机更好用的秘密。

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

APPSO · 公众号 · app · 2024-12-18 05:42

主要观点总结

OpenAI 发布了新的 API 和开发者服务升级，包括 o1 API、Realtime API、偏好微调技术以及 Go 和 Java SDK 的测试版。新功能旨在支持开发者在实际应用场景中更灵活、低成本地应用 AI，通过简化开发流程、降低技术门槛和提升定制化能力来推动 AI 应用开发的大众化。

关键观点总结

关键观点1: o1 API支持函数调用、开发者指令、结构化输出和视觉能力。

o1 API是OpenAI的新发布，支持多种功能，包括函数调用、开发者指令、结构化输出和视觉能力。它能够无缝连接外部数据和API，生成可靠地遵循自定义JSON模式的响应，为模型指定指令或上下文等。

关键观点2: Realtime API进行了全面升级，特别适合开发语音助手、实时翻译工具等。

Realtime API是OpenAI对原有API的全面升级，特别适用于开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。它集成了WebRTC技术，可以确保在网络波动的情况下仍能提供平滑且响应迅速的交互体验。

关键观点3: 偏好微调技术（Preference Fine-Tuning）简化了模型和用户的交互过程。

该技术旨在通过比较模型响应来训练AI区分用户偏好，尤其在处理涉及语气、风格和创造力等主观因素的任务时效果显著。它可以帮助提高模型的准确率和用户体验。

关键观点4: Go 和 Java SDK 的测试版发布，为开发者提供更全面的开发工具支持。

OpenAI发布了Go和Java SDK的测试版，与现有的Python、Node.js和.NET库一起，为开发者提供更全面的开发工具支持。这将有助于简化开发流程，提高开发效率。

关键观点5: OpenAI 通过降低价格、提供更具性价比的选择来推动 AI 的大规模应用。

OpenAI 通过降低服务费用，如 GPT-4o mini 的音频价格大幅下降，为开发者提供更具性价比的选择。这将有助于推动 AI 的大规模应用，促进 AI 技术的发展。

正文

事先张扬的 mini 版 DevDay 终于来了。

GPT-4.5 和 DALL·E 4 依旧没有露脸，今天 OpenAI 发布会的焦点主要放在 API 和开发者服务的全新升级上，真·开发者大会。

省流不看版如下：

OpenAI o1 API：支持函数调用、开发者指令、结构化输出和视觉能力。

Realtime API：包括简单的 WebRTC 集成，GPT-4o 音频的价格大幅降低了 60%，同时新增对 GPT-4o mini 的支持，其音频速率仅为原来的十分之一。

偏好微调（Preference Fine-Tuning），这是一种新的模型定制技术，简化了根据用户和开发者偏好进行模型定制的过程。

新的 Go 和 Java SDK，现已进入 beta 阶段。

本次发布会由 OpenAI 技术人员 Sean DuBois、Andrew Peng、Michelle Pokrass 和 Brian Zhang 等人共同主持。

直播活动结束后，OpenAI 也在 Reddit 论坛上举办了 AMA（Ask Me Anything）活动。我们精选一些亮点问答放在文末，建议不要错过。

而在召开发布会前，OpenAI 也上架了 DevDay 2024 的路演视频。

附上传送地址：
https://www.youtube.com/watch?v=auXCQ9-721o&list=PLOXw6I10VTv\_o0ZLpFu2IQyQOho1l-v7y&index=1

在 OpenAI o1 模型发布之后，应广大开发者的呼声，期待已久的 o1 API 正式发布。即日起，OpenAI 向 API 使用等级 5 级的开发者开放访问权限。

据官方介绍，现已正式上线的 o1 具备多项关键功能，可支持实际应用场景如下：

函数调用：无缝连接 o1 与外部数据和 API。

结构化输出：生成可靠地遵循自定义 JSON 模式的响应。

开发者指令：为模型指定指令或上下文，例如定义语气、风格以及其他行为指导。

视觉能力：推理图像，开启更多科学、制造或编程领域的应用，特别是在视觉输入至关重要的场景中。

更低延迟：与 o1-preview 相比，o1 在处理相同请求时，推理 token 使用量平均减少 60%。

在发布会上，OpenAI 演示人员也向我们展示了 o1 API 具体的应用案例。

比如说，借助 o1 API 的视觉能力，它能够检测上传表格中的错误并给出修订建议，还能在获取正确数据后完成所得税计算等复杂任务。

比较值得关注的是其结构化输出功能。

通过预先定义 JSON 架构，模型能够严格按照指定格式输出结果。并且，其还能基于这些结构化数据，在 PDF 界面中精确高亮显示需要修改的内容，以及支持函数调用与结构化输出的协同使用。

至于广受关注的 o1 Pro API，OpenAI 表示正在加紧开发中，有望在近期推出。

本次发布的 o1-2024-12-17 版本是对两周前 ChatGPT 版本的全新后训练优化，在函数调用（function calling）和结构化输出测试（Structured Outputs testing）中的表现都要明显优于之前的 o1-preview。

目前，OpenAI 正在逐步推出访问权限，同时努力扩大对更多使用等级的访问，并提升速率限制。

文档指路：
https://platform.openai.com/docs/models#o1

为打造更自然、低延迟的对话体验，OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。

演示环节，OpenAI 展示了一个融入 Realtime API 的互动驯鹿玩偶，能够与人进行自然的对话，比如发布会就今年收到的圣诞礼物等话题聊了起来。

而更重要的是，Realtime API 能够集成到智能眼镜等可穿戴设备中，或者轻松接入各类摄像头和麦克风系统，为人机交互开启更广阔的可能性。

应开发者需求，Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。

WebRTC 能够极大简化跨平台实时语音产品的开发流程。无论是浏览器应用、移动客户端、物联网设备还是服务器间通信，都能实现平滑接入。

据悉，该技术可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能，即使在网络条件不稳定的情况下也能保证流畅的用户体验。

WebRTC 集成旨在确保在实际环境中，即使网络质量波动，仍能提供平滑且响应迅速的交互。它负责处理音频编码、流媒体传输、降噪以及拥塞控制等功能。

在定价方面，OpenAI 大幅下调了相关服务费用。

gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%，降至每百万输入 token 40 美元，每百万输出 token 80 美元。

音频输入缓存费用仅需每百万 token 2.50 美元，大幅下降 87.5%，怎么有种 OpenAI 年底「百亿补贴」的既视感。

同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择，在保持体验的同时，将音频价格设定为每百万输入 token 10 美元，每百万输出 token 20 美元，文本 token 则分别为 0.60 美元和 2.40 美元。

为进一步提升语音交互体验，Realtime API 还新增了多项实用功能：

后台任务，如内容审核或分类，可以在不干扰用户语音互动的情况下进行。

允许自定义输入上下文，指定哪些对话内容作为模型的输入。例如，可以选择仅对用户最后一句发言进行审核，或在不变更会话状态的前提下，重新利用之前的回应。

控制响应时机，利用服务器端语音活动检测（VAD），但不自动触发回应。例如，可以先收集必要信息（如账户详情），加入模型上下文，然后手动启动语音回复，以提供更多对时机和准确性的控制。

延长最大会话时长，将原本 15 分钟的会话时长增加到 30 分钟。

另外，此次更新还为微调 API 带来了偏好微调（Preference Fine-Tuning）技术。

Preference Fine-Tuning 采用直接偏好优化(DPO)技术，通过比较模型响应来训练 AI 区分用户偏好，在处理涉及语气、风格和创造力等主观因素的任务时尤其有效。

以 Rogo AI 为例，其金融分析师 AI 助手在采用该技术后，准确率从 75% 提升至 80% 以上。偏好微调今天将推出，适用于 gpt-4o-2024-08-06，并将在不久后为 gpt-4o-mini-2024-07-18 提供。

最后，OpenAI 还发布了 Go 和 Java SDK 测试版，与现有的 Python、Node.js 和 .NET 库一起，为开发者提供更全面的开发工具支持。