Agents SDK支持音频: OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。
OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。
新音频模型一览
这次发布的API主要分为两类:
1. 语音识别模型(Speech-to-text):
• gpt-4o-transcribe(精准版)
• gpt-4o-mini-transcribe(轻量版)
2. 文字转语音模型(Text-to-speech):
• gpt-4o-mini-tts(支持自定义声音风格)
这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。
价格一览(每百万tokens)
官方也给出了新模型的定价明细,具体如下:
模型名称 文本输入价格 文本输出价格 音频输入价格 音频输出价格
gpt-4o-mini-tts $0.60 - - $12.00
gpt-4o-transcribe $2.50 $10.00 $6.00 -
gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -
从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。
有哪些新亮点?
1. 语音转文字更精准
新音频模型一览
这次发布的API主要分为两类:
1. 语音识别模型(Speech-to-text):
• gpt-4o-transcribe(精准版)
• gpt-4o-mini-transcribe(轻量版)
2. 文字转语音模型(Text-to-speech):
• gpt-4o-mini-tts(支持自定义声音风格)
这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。
价格一览(每百万tokens)
官方也给出了新模型的定价明细,具体如下:
模型名称 文本输入价格 文本输出价格 音频输入价格 音频输出价格
gpt-4o-mini-tts $0.60 - - $12.00
gpt-4o-transcribe $2.50 $10.00 $6.00 -
gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -
从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。
有哪些新亮点?
1. 语音转文字更精准