梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
起猛了,
DeepSeek开口说话了
。
而且是
超低延迟实时秒回
,还
可以随时打断
的那种,先来看一段VCR:
DeepSeek以及其他任意大模型接入这样的高质量对话引擎,全程只需要
两行代码
。
开发一款语音交互的AI应用,门槛低到如此令人发指了吗?
这不算完,价格方面还有惊喜:
每分钟0.098元
,不到一毛钱,单次还赠送1000分钟。
这就是来自声网的对话式AI引擎了。
声网AI RTE产品线负责人姚光华
在3月6日对话式AI引擎发布会上提到,“经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI 每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。”
声网在价格上做到了极致,按用量付费的模式更是不设上限,让多模态AI交互应用服务百万级用户规模成为可能。
这样便宜又好用,声网是怎么做到的呢?
揭秘AI对话流畅体验关键
AI对话要想体验丝滑,低延迟是必不可少的。
这里有一个关键数据:
延迟是否低于1.7秒
。
如果低于这个值,人们会觉得与AI交流很自然;当延迟达到2秒-3秒,使用体验上感觉到有些卡顿,反应稍显迟缓。
而声网对话式AI引擎,经过在中、美、欧、东南亚主要城市实测,能够做到
响应延迟中位数650毫秒
。这样的反应速度就能做到与人类对话体验相仿,消除用户等待的焦虑感。
响应延迟只是保障流畅对话体验的基础,进入实际应用后,还有更多关键技术。
真实人类对话的一个重要特征是可以
自然地打断对方
,而大多数AI对话系统在这方面表现不佳。声网对话式AI引擎支持用户随时打断AI的回应,打断响应低至340ms,真正模拟人与人之间的自然对话节奏。
在
嘈杂环境
下,普通语音识别往往难以准确捕捉用户意图。声网的对话式AI引擎能屏蔽95%的环境人声和噪声干扰,精准识别对话人声,即使在人声嘈杂的公共场所,也能保持对话质量。
在地铁、地下车库等
网络信号不佳的环境
下,普通语音互动应用往往卡顿或断连。
声网之所以能解决这个问题,是因为声网的软件定义实时网SD-RTN在全球建设了200多个数据中心,建立连接时选址也都是选在离终端用户最近的地方。
再结合独家智能路由+抗弱网算法,可以做到各种复杂网络环境下的跨区域丝滑互动,在面临80%丢包的情况下人与Agent也能稳定交流,即使断网3-5s依旧可以流畅对话。
最后,该引擎不局限于特定大模型,能实现DeepSeek、ChatGPT等全模型适配,同时其音视频SDK支持30000+终端机型,彻底解决多设备兼容性的后顾之忧。
15分钟任何应用加装AI语音交互
对于开发者而言,声网对话式AI引擎最大的魅力在于其极简的开发接入流程和强大的灵活性:
极简接入:
通过声网Console后台,开发者可以自行开通服务、在Playground中调参测试并生成代码,仅需2行核心代码,15分钟即可完成从零到部署一个基于大模型的对话式AI Agent的全过程。
这一”傻瓜式”接入方式极大降低了技术门槛,让更多开发者能够快速进入AI语音交互领域。
灵活切换:
开发者可以根据应用场景需求,自由选择和切换底层大模型,而无需改变前端交互逻辑。支持全球几乎所有大模型厂商,只要和OpenAI接口协议兼容的模型厂商,自3月6日起,全部原生支持。
同时也支持全球主流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。
比如在应用中不同的功能接入不同的模型,都只需简单配置即可完成切换,真正实现一次开发,全模型适配。
广泛兼容:
一方面是支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入。
另一方面则是对硬件的兼容。现实场景中不同的设备可能对于语音处理效果产生影响,性能相对差一些的设备可能会产生更高的延时,需要音视频SDK做到海量设备的兼容性,提供统一的低延时传输。声网的RTC SDK支持30+平台开发框架,30000+终端机型适配,即使是中低端机型也适用。
语音交互即服务模式诞生
声网对话式AI引擎不仅为开发者提供了一个优质选择,更意味着一种新模式的诞生:语音交互即服务。
让RTC(实时音视频)技术与大模型技术解耦,每个部分都可以交给专业的团队去做,大模型厂商无需再花时间精力自建语音交互体系。
在这个趋势之中,声网通过统一API接口广泛兼容模型,站稳了“AI语音交互中间件”这个的新生态位。