专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
51好读  ›  专栏  ›  天池大数据科研平台

刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元

天池大数据科研平台  · 公众号  · 大数据  · 2025-03-21 10:21

正文

本文转载来源:机器之心公众号,不代表官方立场
今天凌晨,OpenAI 突然开启了新产品发布直播,这次新发布的内容全是音频模型。

据介绍,它们实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。 这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。

基于新的 API,开发人员第一次可以指示文本转语音模型以特定方式说话,例如让 AI「像富有同情心的客户服务人员一样说话」,从而为语音智能体开启新的定制化维度,可以实现各种定制应用程序。

OpenAI 还开放了一个网站,让你可以直接测试音频大模型的能力: https://www.openai.fm/


OpenAI 于 2022 年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。 借助新的音频模型及 API,开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。

具体来说,新的 gpt-4o-transcribe gpt-4o-mini-transcribe 模型与原始 Whisper 模型相比改进了单词错误率,提高了语言识别和准确性。

gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能,实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。

这些新的语音-文本模型可以更好地捕捉语音的细微差别,减少误认,并提高转录可靠性,尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。







请到「今天看啥」查看全文