专栏名称: 赛博禅心

拜AI古佛，修赛博禅心

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

赛博禅心 · 公众号 · 科技创业科技自媒体 · 2024-10-02 09:09

正文

中国时间凌晨 1 点多，OpenAI 召开了本年的开发者大会（旧金山场）。顺道说一下，今年开发者大会一共 3 场：10月1号旧金山；10月30号伦敦，以及11月21日新加坡

本次的发布，大体是常规更新，包括：

【新东西】Realtime API

可以理解为就是 GPT-4o 带 advanced voice 的那套，支持 API 了
可以在 playground 里先玩玩
价格很贵很贵，音频的话：

输入价格：100刀每百万 token
输出价格：200刀每百万 token

视觉模型微调

对于支持图像的模型，比如 4o 或者 4o-mini，现在可以用图片进行微调了
利好工业/医疗等场景
看了下文档，方法挺友好的，价格也会贵一些：以 4o-0806 为例子，微调价格为 25 刀/百万 token；之后调用是 $3.75 输入，$15 输出

缓存折扣

如果命中缓存，5折，目前支持：gpt-4o，gpt-4o-mini，o1-preview 和 o1-mini 这四个模型
具体可以看这里：https://platform.openai.com/docs/guides/prompt-caching
不如 DeepSeek 的缓存打一折：《DeepSeek API 创新采用硬盘缓存，价格再降一个数量级》

其他发布

模型层面，带来了蒸馏服务：这确实是独一份的，用来生产高质量语料。不过这东西，对普通开发者，应该用处不大
调试方面，迭代了很多 playground 中的工具链和交互方式，比如 system prompt 的自动优化
在 api 层面，支持了如 zod，pydantic 这样的工具，方便更好的结构化输出（疑惑：之前不就支持了？我一直在用啊）
其他...

重点说说

Realtime API

这个东西，可以理解为是 4o 搭配了 advanced voice 的背后 api。

在以往，常规的带语音的 AI 模型，在处理对话的时候，是遵循以下步骤：

将语音转换成文字（比如使用 whisper 模型）
将文字传输给大模型，并获得文字返回
用 tts 工具，将文字读出来

在很多情况下，这么做是没问题的，但总会觉得别扭，比如我给大模型说

wò caò
wò caǒ
wǒ caò
wǒ caǒ
...

很显然，这几个意思是不一样的。如果我通过「语音 - 文字 - 语音」的方法，并不能准确识别，还可能被认为我手里拿了个草「握草」。但如果是语音 end-end 的做法，则可以准确识别。

同时，也可以发现，这里还有一个可行的项目方向：用语音 end - end 的方式，进行语言训练，比如矫正口音。

另需要注意的是，这个模型...很贵。让他说一分钟的话，需要人民币大概 1.7 元：

这个模型的调用方法，和 gpt 系列不太一样，也不用 openai sdk。具体不展开了，有兴趣的可以看这：

https://platform.openai.com/docs/guides/realtime

官方还配了个例子（我是第4个点赞的，ahhhhh）：

https://github.com/openai/openai-realtime-api-beta

另一个（console)：https://github.com/openai/openai-realtime-console

最后再吐槽下...截止到成稿的时候，这个 api 都没有真实上线。

再来谈谈

视觉模型微调

这个是有用的，尤其是在工业领域，比如：

医疗领域：拿 CT 影像数据来微调，获得一个看片 bot
安防领域：代替部分的传统 CV 方案，判定实时风险
工业领域：让 AI 通过一定量的样本学习，在流水线或者类似场景中，自动检出残次品/报警

微调的方法极其简单，和聊天发图片差不多。支持 url 或者 base64 传递图片，看这就行了：https://platform.openai.com/docs/guides/fine-tuning/vision

这里有些限制，两个方面：

技术限制：最多 5 万组训练数据，每组最多 10 张图，每张图最大 10 M
合规限制：不允许用人像、人脸以及验证码（CAPTCHAs），以及其他可能违规的数据进行训练

众所周知，微调贵一截，这里是价目表：

以及，这里还有一个限时活动：

GPT-4o：每天前 1M 的微调免费，后续 $25.00/1M tokens.
GPT-4o-mini：每天前 2M 的微调免费，后续 $3.00/1M tokens.

至于...

缓存折扣

说白了，就之前（几分钟～1小时）内问过的问题，再问一遍类似的，重复部分半价。不过，优惠力度不够大，毕竟 Gemini 是输入 2 折；DeepSeek 是输入 1折：《DeepSeek API 创新采用硬盘缓存，价格再降一个数量级》

至于原理和步骤，大概是这样：

启用缓存：如果 prompt 长度超过 1024 tokens，系统会自动启用缓存，并检查 prompt 前部分是否已存储在缓存中
如命中：如找到匹配，则会使用缓存的结果，以降低延迟并减少成本
未命中：如没找到，系统会正常处理，然后缓存当前请求，以便将来使用。

需注意：

缓存启用：无需主动声明，自动启用
缓存时间：通常是 5～10 分钟，高峰时段可能是 1 小时（不可控）
缓存管理：同一组织下，缓存共享，且无法主动清理
内容生成：缓存不会影响 API 生成的最终响应，每次生成是独立的
折扣互斥：Batch API 不享受缓存折扣

其他

本场发布会的主要更新，还是传统开发者 - 拿着 API 或者模型整活的。

Realtime API 等马上（可能就是1天内）上线后，可以多试试，找找感觉，应该有不少场景。

另外的，11 月 21 号的新加坡场作为 OpenAI 的本年度最后一场活动，应该会有一些新东西。到时候我也会去现场，带来第一手的实时报道。