专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可微博热门分享(10.1)》 ... ·  4 天前  
爱可可-爱生活  ·  欢迎收听「爱可可AI前沿快报」,用最通俗的语 ... ·  5 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20240929225121 ·  6 天前  
51好读  ›  专栏  ›  宝玉xp

//@Minghua_Deng:提供 API 的话用 webso-20241003233631

宝玉xp  · 微博  · AI  · 2024-10-03 23:36

正文

2024-10-03 23:36

[中国赞]//@Minghua_Deng:提供 API 的话用 websocket 是合理的,但真正要搭建实时的语音交互 bot 的话 RTC 会好做很多,websocket 要在应用层处理很多 calling 相关的东西。ChatGPT的语音模式也是用一个叫 LiveKit 的 RTC 框架支持的//@韦恩卑鄙:rtc关注的是多源合成(客户端和服务器两方面)🤓在这里乱用属于迫击炮打蚊子//@Minghua_Deng:居然用的是 websocket 的 stack 不是 RTC,不过也合理,作为开放的 API 如果用 RTC 的话太重了。但这也意味着如果要用这个 API 做实时的语音产品的话要自己处理很多 calling 相关的东西,包括怎么在网络差的时候处理等等,一般开发者恐怕不好做 [笑cry]
OpenAI 推出了实时语音的 API,也就是 ChatGPT 里面的高级语音功能,付费开发者就可以使用。你也可以打造自己的实时语音对话功能了!再也不需要像以前先 Whisper 转录,ChatGPT 生成,再文本转语音。

不过价钱不算便宜,但也可以接受,每分钟音频输入大约 0.06 美元,音频输出约 0.24 美元。不考虑输入,10 分钟的输出音频就是 3 美元。

付费的 API 用户现在就可以使用了,实时 API 的音频功能由 GPT-4o 模型 gpt-4o-realtime-preview 提供支持,使用的是 Web Socket 通信,网页和移动 App 对 Web Socket 通信都有很好的兼容。

视频中是 SpeakAI 基于实时语音 API 打造的 Live Roleplays App,可以让 AI 当你的口语老师 宝玉xp的微博视频