专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
51好读  ›  专栏  ›  黄建同学

Agents SDK支持音频: OpenAI还特意提到了,现在他-20250322222955

黄建同学  · 微博  · AI  · 2025-03-22 22:29

正文

2025-03-22 22:29

Agents SDK支持音频: OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。
OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。

新音频模型一览
这次发布的API主要分为两类:

1. 语音识别模型(Speech-to-text):
• gpt-4o-transcribe(精准版)
• gpt-4o-mini-transcribe(轻量版)
2. 文字转语音模型(Text-to-speech):
• gpt-4o-mini-tts(支持自定义声音风格)
这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。

价格一览(每百万tokens)
官方也给出了新模型的定价明细,具体如下:

模型名称 文本输入价格 文本输出价格 音频输入价格 音频输出价格
gpt-4o-mini-tts $0.60 - - $12.00
gpt-4o-transcribe $2.50 $10.00 $6.00 -
gpt-4o-mini-transcribe $1.25 $5.00 $3.00 -
从定价来看,mini版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe则适合需要更高精准度的专业场景,比如客服中心、会议记录等。

有哪些新亮点?
1. 语音转文字更精准






请到「今天看啥」查看全文