专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  我愿提前颁出:本年度最离谱项目 ·  6 小时前  
小众软件  ·  又来新开源字体了:中英文完美 ... ·  昨天  
小众软件  ·  广告拦截工具 AdGuard 买断版限时 38 折 ·  3 天前  
51好读  ›  专栏  ›  APPSO

OpenAI 年底「百亿补贴」来了,满血 o1 API 开放,成本暴跌,定制升级

APPSO  · 公众号  · app  · 2024-12-18 05:42

主要观点总结

OpenAI 发布了新的 API 和开发者服务升级,包括 o1 API、Realtime API、偏好微调技术以及 Go 和 Java SDK 的测试版。新功能旨在支持开发者在实际应用场景中更灵活、低成本地应用 AI,通过简化开发流程、降低技术门槛和提升定制化能力来推动 AI 应用开发的大众化。

关键观点总结

关键观点1: o1 API支持函数调用、开发者指令、结构化输出和视觉能力。

o1 API是OpenAI的新发布,支持多种功能,包括函数调用、开发者指令、结构化输出和视觉能力。它能够无缝连接外部数据和API,生成可靠地遵循自定义JSON模式的响应,为模型指定指令或上下文等。

关键观点2: Realtime API进行了全面升级,特别适合开发语音助手、实时翻译工具等。

Realtime API是OpenAI对原有API的全面升级,特别适用于开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。它集成了WebRTC技术,可以确保在网络波动的情况下仍能提供平滑且响应迅速的交互体验。

关键观点3: 偏好微调技术(Preference Fine-Tuning)简化了模型和用户的交互过程。

该技术旨在通过比较模型响应来训练AI区分用户偏好,尤其在处理涉及语气、风格和创造力等主观因素的任务时效果显著。它可以帮助提高模型的准确率和用户体验。

关键观点4: Go 和 Java SDK 的测试版发布,为开发者提供更全面的开发工具支持。

OpenAI发布了Go和Java SDK的测试版,与现有的Python、Node.js和.NET库一起,为开发者提供更全面的开发工具支持。这将有助于简化开发流程,提高开发效率。

关键观点5: OpenAI 通过降低价格、提供更具性价比的选择来推动 AI 的大规模应用。

OpenAI 通过降低服务费用,如 GPT-4o mini 的音频价格大幅下降,为开发者提供更具性价比的选择。这将有助于推动 AI 的大规模应用,促进 AI 技术的发展。


正文

事先张扬的 mini 版 DevDay 终于来了。
GPT-4.5 和 DALL·E 4 依旧没有露脸,今天 OpenAI 发布会的焦点主要放在 API 和开发者服务的全新升级上,真·开发者大会。
省流不看版如下:

OpenAI o1 API:支持函数调用、开发者指令、结构化输出和视觉能力。

Realtime API:包括简单的 WebRTC 集成,GPT-4o 音频的价格大幅降低了 60%,同时新增对 GPT-4o mini 的支持,其音频速率仅为原来的十分之一。

偏好微调(Preference Fine-Tuning),这是一种新的模型定制技术,简化了根据用户和开发者偏好进行模型定制的过程。

新的 Go 和 Java SDK,现已进入 beta 阶段。
本次发布会由 OpenAI 技术人员 Sean DuBois、Andrew Peng、Michelle Pokrass 和 Brian Zhang 等人共同主持。
直播活动结束后,OpenAI 也在 Reddit 论坛上举办了 AMA(Ask Me Anything)活动。我们精选一些亮点问答放在文末,建议不要错过。
而在召开发布会前,OpenAI 也上架了 DevDay 2024 的路演视频。

附上传送地址:
https://www.youtube.com/watch?v=auXCQ9-721o&list=PLOXw6I10VTv\_o0ZLpFu2IQyQOho1l-v7y&index=1
在 OpenAI o1 模型发布之后,应广大开发者的呼声,期待已久的 o1 API 正式发布。 即日起,OpenAI 向 API 使用等级 5 级的开发者开放访问权限。
据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:

函数调用:无缝连接 o1 与外部数据和 API。

结构化输出:生成可靠地遵循自定义 JSON 模式的响应。

开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。

视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。

更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。
在发布会上,OpenAI 演示人员也向我们展示了 o1 API 具体的应用案例。
比如说,借助 o1 API 的视觉能力,它能够检测上传表格中的错误并给出修订建议,还能在获取正确数据后完成所得税计算等复杂任务。
比较值得关注的是其结构化输出功能。
通过预先定义 JSON 架构,模型能够严格按照指定格式输出结果。并且,其还能基于这些结构化数据,在 PDF 界面中精确高亮显示需要修改的内容,以及支持函数调用与结构化输出的协同使用。
至于广受关注的 o1 Pro API,OpenAI 表示正在加紧开发中,有望在近期推出。
本次发布的 o1-2024-12-17 版本是对两周前 ChatGPT 版本的全新后训练优化, 在函数调用(function calling)和结构化输出测试(Structured Outputs testing)中的表现都要明显优于之前的 o1-preview。
目前,OpenAI 正在逐步推出访问权限,同时努力扩大对更多使用等级的访问,并提升速率限制。
文档指路:
https://platform.openai.com/docs/models#o1
为打造更自然、低延迟的对话体验,OpenAI 对 Realtime API 也进行了全面升级。 新版本特别适合开发语音助手、实时翻译工具、虚拟辅导员和互动客服系统等应用场景。
演示环节,OpenAI 展示了一个融入 Realtime API 的互动驯鹿玩偶, 能够与人进行自然的对话,比如发布会就今年收到的圣诞礼物等话题聊了起来。
更重要的是 ,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统,为人机交互开启更广阔的可能性。
应开发者需求,Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。
WebRTC 能够极大简化跨平台实时语音产品的开发流程。无论是浏览器应用、移动客户端、物联网设备还是服务器间通信,都能实现平滑接入。
据悉,该技术可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。
WebRTC 集成旨在确保在实际环境中,即使网络质量波动,仍能提供平滑且响应迅速的交互。它负责处理音频编码、流媒体传输、降噪以及拥塞控制等功能。
在定价方面,OpenAI 大幅下调了相关服务费用。
gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 token 40 美元, 每百万 输出 token 80 美元。
音频输入缓存费用仅需每百万 token 2.50 美元, 幅下降 87.5%, 怎么有种 OpenAI 年底「百 亿补 贴」的 既视感。
同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择,在保持体验的同时,将音频价格设定为每百万输入 token 10 美元, 每百万 输出 token 20 美元,文本 token 则分别为 0.60 美元和 2.40 美元。
为进一步提升语音交互体验,Realtime API 还新增了多项实用功能:

后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。

允许自定义输入上下文,指定哪些对话内容作为模型的输入。例如,可以选择仅对用户最后一句发言进行审核,或在不变更会话状态的前提下,重新利用之前的回应。

控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。例如,可以先收集必要信息(如账户详情),加入模型上下文,然后手动启动语音回复,以提供更多对时机和准确性的控制。

延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。
另外,此次更新还为微调 API 带来了偏好微调(Preference Fine-Tuning)技术。
Preference Fine-Tuning 采用直接偏好优化(DPO)技术,通过比较模型响应来训练 AI 区分用户偏好,在处理涉及语气、风格和创造力等主观因素的任务时尤其有效。
以 Rogo AI 为例,其金融分析师 AI 助手在采用该技术后,准确率从 75% 提升至 80% 以上。偏好微调今天将推出,适用于 gpt-4o-2024-08-06,并将在不久后为 gpt-4o-mini-2024-07-18 提供。
最后,OpenAI 还发布了 Go 和 Java SDK 测试版,与现有的 Python、Node.js 和 .NET 库一起,为开发者提供更全面的开发工具支持。






请到「今天看啥」查看全文