刚刚，OpenAI开启语音智能体时代，API价格低至每分钟0.015美元

机器之心 · 公众号 · AI · 2025-03-21 08:56

正文

机器之心报道

编辑：泽南

现在，你可以指导 GPT-4o 的说话方式了。

今天凌晨，OpenAI 突然开启了新产品发布直播，这次新发布的内容全是音频模型。

据介绍，它们实现了新的 SOTA 水平，在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性，新模型特别适合客户呼叫中心、会议记录转录等用例。

基于新的 API，开发人员第一次可以指示文本转语音模型以特定方式说话，例如让 AI「像富有同情心的客户服务人员一样说话」，从而为语音智能体开启新的定制化维度，可以实现各种定制应用程序。

OpenAI 还开放了一个网站，让你可以直接测试音频大模型的能力： https://www.openai.fm/

OpenAI 于 2022 年推出了第一个音频模型，并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及 API，开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。

具体来说，新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型与原始 Whisper 模型相比改进了单词错误率，提高了语言识别和准确性。

gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能，实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

这些新的语音-文本模型可以更好地捕捉语音的细微差别，减少误认，并提高转录可靠性，尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。

几种模型的单词错误率（越低越好）。

推荐文章

爱可可-爱生活 · 本文创新性地提出了“价值观画像”这一自然语言形式的个体价值观表示-20250321052537

21 小时前

爱可可-爱生活 · [LG]《Robustness of Nonlinear Rep-20250321054313

20 小时前

天心教育 · AI了AI了！天心校园「萌力觉醒」→

昨天

爱可可-爱生活 · 从协作式自我对弈中学习认知边界查看图片 //@爱可可-爱生活-20250320074559

昨天

瞭望 · AI时代的春分，感觉如何？

昨天

瞭望 · AI时代的春分，感觉如何？

昨天

海报网 · 吸睛| 年会派对，你需要这30双高跟鞋秒杀一众妖艳货...

8 年前

健康生活圈 · 马桶堵了别花冤枉钱，一个胶带就解决！关键不脏手！

7 年前

中国军事 · 日媒渲染中国南海威胁称东南亚各国强化海上“防守”路线

7 年前

狗与爱的世界 · 它们的智商不如人，却拥有天使般的美好，多想你活的和我一样久

7 年前

美美娱乐 · 化身嘻哈导师的wuli亦凡“哥哥”，竟凭一句话征服所有人、刷爆朋友圈，原因竟让人啼笑皆非！

7 年前