//@Minghua_Deng:提供 API 的话用 websocket 是合理的,但真正要搭建实时的语音交互 bot 的话 RTC 会好做很多,websocket 要在应用层处理很多 calling 相关的东西。ChatGPT的语音模式也是用一个叫 LiveKit 的 RTC 框架支持的//@韦恩卑鄙:rtc关注的是多源合成(客户端和服务器两方面)🤓在这里乱用属于迫击炮打蚊子//@Minghua_Deng:居然用的是 websocket 的 stack 不是 RTC,不过也合理,作为开放的 API 如果用 RTC 的话太重了。但这也意味着如果要用这个 API 做实时的语音产品的话要自己处理很多 calling 相关的东西,包括怎么在网络差的时候处理等等,一般开发者恐怕不好做
OpenAI 推出了实时语音的 API,也就是 ChatGPT 里面的高级语音功能,付费开发者就可以使用。你也可以打造自己的实时语音对话功能了!再也不需要像以前先 Whisper 转录,ChatGPT 生成,再文本转语音。
不过价钱不算便宜,但也可以接受,每分钟音频输入大约 0.06 美元,音频输出约 0.24 美元。不考虑输入,10 分钟的输出音频就是 3 美元。
付费的 API 用户现在就可以使用了,实时 API 的音频功能由 GPT-4o 模型 gpt-4o-realtime-preview 提供支持,使用的是 Web Socket 通信,网页和移动 App 对 Web Socket 通信都有很好的兼容。
视频中是 SpeakAI 基于实时语音 API 打造的 Live Roleplays App,可以让 AI 当你的口语老师 宝玉xp的微博视频
不过价钱不算便宜,但也可以接受,每分钟音频输入大约 0.06 美元,音频输出约 0.24 美元。不考虑输入,10 分钟的输出音频就是 3 美元。
付费的 API 用户现在就可以使用了,实时 API 的音频功能由 GPT-4o 模型 gpt-4o-realtime-preview 提供支持,使用的是 Web Socket 通信,网页和移动 App 对 Web Socket 通信都有很好的兼容。
视频中是 SpeakAI 基于实时语音 API 打造的 Live Roleplays App,可以让 AI 当你的口语老师 宝玉xp的微博视频