2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

量子位 · 公众号 · AI · 2025-03-07 15:12

正文

梦晨发自凹非寺
量子位 | 公众号 QbitAI

起猛了， DeepSeek开口说话了 。

而且是 超低延迟实时秒回 ，还 可以随时打断 的那种，先来看一段VCR：

DeepSeek以及其他任意大模型接入这样的高质量对话引擎，全程只需要两行代码。

开发一款语音交互的AI应用，门槛低到如此令人发指了吗？

这不算完，价格方面还有惊喜： 每分钟0.098元 ，不到一毛钱，单次还赠送1000分钟。

这就是来自声网的对话式AI引擎了。

声网AI RTE产品线负责人姚光华 在3月6日对话式AI引擎发布会上提到，“经过一段时间与客户的打磨及实际使用场景调研，我们统计出，用户与AI 每产生1次对话中，平均会有约3轮问答，计算下来平均对话时长约为21.1s，单次成本仅需3分钱。如果每月对话次数15次，那么月成本不到5毛钱，年成本也只需5元。”

声网在价格上做到了极致，按用量付费的模式更是不设上限，让多模态AI交互应用服务百万级用户规模成为可能。

这样便宜又好用，声网是怎么做到的呢？

揭秘AI对话流畅体验关键

AI对话要想体验丝滑，低延迟是必不可少的。

这里有一个关键数据： 延迟是否低于1.7秒 。

如果低于这个值，人们会觉得与AI交流很自然；当延迟达到2秒-3秒，使用体验上感觉到有些卡顿，反应稍显迟缓。

而声网对话式AI引擎，经过在中、美、欧、东南亚主要城市实测，能够做到 响应延迟中位数650毫秒 。这样的反应速度就能做到与人类对话体验相仿，消除用户等待的焦虑感。

响应延迟只是保障流畅对话体验的基础，进入实际应用后，还有更多关键技术。

真实人类对话的一个重要特征是可以 自然地打断对方 ，而大多数AI对话系统在这方面表现不佳。声网对话式AI引擎支持用户随时打断AI的回应，打断响应低至340ms，真正模拟人与人之间的自然对话节奏。

在 嘈杂环境 下，普通语音识别往往难以准确捕捉用户意图。声网的对话式AI引擎能屏蔽95%的环境人声和噪声干扰，精准识别对话人声，即使在人声嘈杂的公共场所，也能保持对话质量。

在地铁、地下车库等 网络信号不佳的环境 下，普通语音互动应用往往卡顿或断连。

声网之所以能解决这个问题，是因为声网的软件定义实时网SD-RTN在全球建设了200多个数据中心，建立连接时选址也都是选在离终端用户最近的地方。

再结合独家智能路由+抗弱网算法，可以做到各种复杂网络环境下的跨区域丝滑互动，在面临80%丢包的情况下人与Agent也能稳定交流，即使断网3-5s依旧可以流畅对话。

最后，该引擎不局限于特定大模型，能实现DeepSeek、ChatGPT等全模型适配，同时其音视频SDK支持30000+终端机型，彻底解决多设备兼容性的后顾之忧。

15分钟任何应用加装AI语音交互

对于开发者而言，声网对话式AI引擎最大的魅力在于其极简的开发接入流程和强大的灵活性：

极简接入：

通过声网Console后台，开发者可以自行开通服务、在Playground中调参测试并生成代码，仅需2行核心代码，15分钟即可完成从零到部署一个基于大模型的对话式AI Agent的全过程。

这一”傻瓜式”接入方式极大降低了技术门槛，让更多开发者能够快速进入AI语音交互领域。

灵活切换：

开发者可以根据应用场景需求，自由选择和切换底层大模型，而无需改变前端交互逻辑。支持全球几乎所有大模型厂商，只要和OpenAI接口协议兼容的模型厂商，自3月6日起，全部原生支持。

同时也支持全球主流语音合成供应商任意切换，支持开发者通过语音合成供应商定制的自定义音色接入。

比如在应用中不同的功能接入不同的模型，都只需简单配置即可完成切换，真正实现一次开发，全模型适配。

广泛兼容：

一方面是支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入。

另一方面则是对硬件的兼容。现实场景中不同的设备可能对于语音处理效果产生影响，性能相对差一些的设备可能会产生更高的延时，需要音视频SDK做到海量设备的兼容性，提供统一的低延时传输。声网的RTC SDK支持30+平台开发框架，30000+终端机型适配，即使是中低端机型也适用。

语音交互即服务模式诞生

声网对话式AI引擎不仅为开发者提供了一个优质选择，更意味着一种新模式的诞生：语音交互即服务。

让RTC(实时音视频)技术与大模型技术解耦，每个部分都可以交给专业的团队去做，大模型厂商无需再花时间精力自建语音交互体系。

在这个趋势之中，声网通过统一API接口广泛兼容模型，站稳了“AI语音交互中间件”这个的新生态位。

2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

正文

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI

揭秘AI对话流畅体验关键

15分钟任何应用加装AI语音交互

语音交互即服务模式诞生

请到「今天看啥」查看全文

梦晨发自凹非寺
量子位 | 公众号 QbitAI