Agents SDK支持音频： OpenAI还特意提到了，现在他-20250322222955_黄建同学的专栏文章_微信文章

Agents SDK支持音频： OpenAI还特意提到了，现在他们的Agents SDK已经可以直接支持音频了，也就是说，以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。

OpenAI 今天又发布了一批新功能，这次是三个音频模型API，个人觉得挺实用。

新音频模型一览
这次发布的API主要分为两类：

1. 语音识别模型（Speech-to-text）：
• gpt-4o-transcribe（精准版）
• gpt-4o-mini-transcribe（轻量版）
2. 文字转语音模型（Text-to-speech）：
• gpt-4o-mini-tts（支持自定义声音风格）
这些新模型相较之前的Whisper模型，准确率有明显提升，尤其是在有噪音、口音明显或语速变化快的环境下。

价格一览（每百万tokens）
官方也给出了新模型的定价明细，具体如下：

模型名称文本输入价格文本输出价格音频输入价格音频输出价格
gpt-4o-mini-tts $0.60 - - $12.00
gpt-4o-transcribe $2.50 $10.00 $6.00 -
gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -
从定价来看，mini版本明显更便宜，更适合日常小规模使用，而gpt-4o-transcribe则适合需要更高精准度的专业场景，比如客服中心、会议记录等。

有哪些新亮点？
1. 语音转文字更精准

Agents SDK支持音频： OpenAI还特意提到了，现在他-20250322222955

正文

2025-03-22 22:29
本条微博链接

请到「今天看啥」查看全文