主要观点总结
OpenAI推出了全新一代音频模型,包括语音转文本和文本转语音功能。新模型有助于开发者构建强大的语音Agent。这些模型的核心亮点和定价信息也被详细介绍。此外,文章还涵盖了OpenAI演示的AI时尚顾问Agent的应用案例,以及构建语音Agent的两种技术路径。
关键观点总结
关键观点1: OpenAI推出全新音频模型
包括语音转文本和文本转语音功能,有助于开发者构建强大的语音Agent。
关键观点2: 新模型的核心亮点
gpt-4o-transcribe和gpt-4o-mini-transcribe在语音转文本方面的卓越表现,尤其是降低单词错误率;gpt-4o-mini-tts首次支持「可引导性」,让开发者能控制「如何说」。
关键观点3: 定价策略
GPT-4o-transcribe定价为每分钟0.006美元,GPT-4o-mini-transcribe为前者的一半,即每分钟0.003美元;GPT-4o-mini-tts定价为每分钟0.015美元。
关键观点4: AI时尚顾问Agent的应用案例
展示了AI如何在实际场景中应用,以及构建语音Agent的两种技术路径。
关键观点5: 新技术背后的创新
包括新音频模型建立在GPT-4o和GPT-4o-mini架构之上,采用真实音频数据集进行预训练,应用self-play方法创建的蒸馏数据集的知识蒸馏方法,以及融入强化学习提升转录精度等。
正文
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。
gpt-4o-transcribe (语音转文本):单词错误率(WER)显著降低,在多个基准测试中优于现有 Whisper 模型
gpt-4o-mini-transcribe (语音转文本):gpt-4o-transcribe 的精简版本,速度更快、效率更高
gpt-4o-mini-tts (文本转语音):首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」
据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。
因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。
gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。
这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。
定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,
每分钟 0.006 美元,
而 GPT-4o-mini-transcribe 则是前者的一半,
每分钟 0.003 美元。
与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。
具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,
仅为每分钟 0.015 美元。
安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。
这些技术进步的背后源于 OpenAI 的多项创新:
新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练
应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移
在语音转文本技术中融入强化学习(RL),显著提升转录精度并减少「幻觉」现象。
在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。
当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。
值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。
系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。
它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。
这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。
OpenAI 还为这些语音交互系统提供了多项增强功能: