专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1704期):通过递归问题分解实 ... ·  昨天  
爱可可-爱生活  ·  [RO]《Reactive ... ·  昨天  
AI创业伙伴  ·  Manus和DeepSeek差别是什么?全能 ... ·  2 天前  
AI创业伙伴  ·  Manus和DeepSeek差别是什么?全能 ... ·  2 天前  
51好读  ›  专栏  ›  量子位

2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话

量子位  · 公众号  · AI  · 2025-03-07 15:12

正文

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

起猛了, DeepSeek开口说话了

而且是 超低延迟实时秒回 ,还 可以随时打断 的那种,先来看一段VCR:

DeepSeek以及其他任意大模型接入这样的高质量对话引擎,全程只需要 两行代码

开发一款语音交互的AI应用,门槛低到如此令人发指了吗?

这不算完,价格方面还有惊喜: 每分钟0.098元 ,不到一毛钱,单次还赠送1000分钟。

这就是来自声网的对话式AI引擎了。

声网AI RTE产品线负责人姚光华 在3月6日对话式AI引擎发布会上提到,“经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI 每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。”

声网在价格上做到了极致,按用量付费的模式更是不设上限,让多模态AI交互应用服务百万级用户规模成为可能。

这样便宜又好用,声网是怎么做到的呢?

揭秘AI对话流畅体验关键

AI对话要想体验丝滑,低延迟是必不可少的。

这里有一个关键数据: 延迟是否低于1.7秒

如果低于这个值,人们会觉得与AI交流很自然;当延迟达到2秒-3秒,使用体验上感觉到有些卡顿,反应稍显迟缓。

而声网对话式AI引擎,经过在中、美、欧、东南亚主要城市实测,能够做到 响应延迟中位数650毫秒 。这样的反应速度就能做到与人类对话体验相仿,消除用户等待的焦虑感。

响应延迟只是保障流畅对话体验的基础,进入实际应用后,还有更多关键技术。

真实人类对话的一个重要特征是可以 自然地打断对方 ,而大多数AI对话系统在这方面表现不佳。声网对话式AI引擎支持用户随时打断AI的回应,打断响应低至340ms,真正模拟人与人之间的自然对话节奏。

嘈杂环境 下,普通语音识别往往难以准确捕捉用户意图。声网的对话式AI引擎能屏蔽95%的环境人声和噪声干扰,精准识别对话人声,即使在人声嘈杂的公共场所,也能保持对话质量。

在地铁、地下车库等 网络信号不佳的环境 下,普通语音互动应用往往卡顿或断连。

声网之所以能解决这个问题,是因为声网的软件定义实时网SD-RTN在全球建设了200多个数据中心,建立连接时选址也都是选在离终端用户最近的地方。

再结合独家智能路由+抗弱网算法,可以做到各种复杂网络环境下的跨区域丝滑互动,在面临80%丢包的情况下人与Agent也能稳定交流,即使断网3-5s依旧可以流畅对话。

最后,该引擎不局限于特定大模型,能实现DeepSeek、ChatGPT等全模型适配,同时其音视频SDK支持30000+终端机型,彻底解决多设备兼容性的后顾之忧。

15分钟任何应用加装AI语音交互

对于开发者而言,声网对话式AI引擎最大的魅力在于其极简的开发接入流程和强大的灵活性:

极简接入:

通过声网Console后台,开发者可以自行开通服务、在Playground中调参测试并生成代码,仅需2行核心代码,15分钟即可完成从零到部署一个基于大模型的对话式AI Agent的全过程。

这一”傻瓜式”接入方式极大降低了技术门槛,让更多开发者能够快速进入AI语音交互领域。

灵活切换:

开发者可以根据应用场景需求,自由选择和切换底层大模型,而无需改变前端交互逻辑。支持全球几乎所有大模型厂商,只要和OpenAI接口协议兼容的模型厂商,自3月6日起,全部原生支持。

同时也支持全球主流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。

比如在应用中不同的功能接入不同的模型,都只需简单配置即可完成切换,真正实现一次开发,全模型适配。

广泛兼容:

一方面是支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入。

另一方面则是对硬件的兼容。现实场景中不同的设备可能对于语音处理效果产生影响,性能相对差一些的设备可能会产生更高的延时,需要音视频SDK做到海量设备的兼容性,提供统一的低延时传输。声网的RTC SDK支持30+平台开发框架,30000+终端机型适配,即使是中低端机型也适用。

语音交互即服务模式诞生

声网对话式AI引擎不仅为开发者提供了一个优质选择,更意味着一种新模式的诞生:语音交互即服务。

让RTC(实时音视频)技术与大模型技术解耦,每个部分都可以交给专业的团队去做,大模型厂商无需再花时间精力自建语音交互体系。

在这个趋势之中,声网通过统一API接口广泛兼容模型,站稳了“AI语音交互中间件”这个的新生态位。







请到「今天看啥」查看全文