//@Minghua_Deng:提供 API 的话用 webso-20241003233631_宝玉xp的专栏文章_微信文章

//@Minghua_Deng:提供 API 的话用 webso-20241003233631

宝玉xp · 微博 · AI · 2024-10-03 23:36

正文

2024-10-03 23:36
本条微博链接

//@Minghua_Deng:提供 API 的话用 websocket 是合理的，但真正要搭建实时的语音交互 bot 的话 RTC 会好做很多，websocket 要在应用层处理很多 calling 相关的东西。ChatGPT的语音模式也是用一个叫 LiveKit 的 RTC 框架支持的//@韦恩卑鄙:rtc关注的是多源合成（客户端和服务器两方面）🤓在这里乱用属于迫击炮打蚊子//@Minghua_Deng:居然用的是 websocket 的 stack 不是 RTC，不过也合理，作为开放的 API 如果用 RTC 的话太重了。但这也意味着如果要用这个 API 做实时的语音产品的话要自己处理很多 calling 相关的东西，包括怎么在网络差的时候处理等等，一般开发者恐怕不好做

OpenAI 推出了实时语音的 API，也就是 ChatGPT 里面的高级语音功能，付费开发者就可以使用。你也可以打造自己的实时语音对话功能了！再也不需要像以前先 Whisper 转录，ChatGPT 生成，再文本转语音。

不过价钱不算便宜，但也可以接受，每分钟音频输入大约 0.06 美元，音频输出约 0.24 美元。不考虑输入，10 分钟的输出音频就是 3 美元。

付费的 API 用户现在就可以使用了，实时 API 的音频功能由 GPT-4o 模型 gpt-4o-realtime-preview 提供支持，使用的是 Web Socket 通信，网页和移动 App 对 Web Socket 通信都有很好的兼容。

视频中是 SpeakAI 基于实时语音 API 打造的 Live Roleplays App，可以让 AI 当你的口语老师

宝玉xp的微博视频