「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

字节跳动技术团队 · 公众号 · AI 科技自媒体 · 2024-11-17 09:40

正文

给客服打电话总是遇到让人高血压的 AI ？

智能音箱对话时总是被错误识别？

AI 陪伴机器人总是感觉有点呆板？

语音交互体验

似乎成为了 AI 落地的一块绊脚石。

试试扣子智能语音 OpenAPI ，

将有望使这种情况成为过去式！

经过这近两年来的发展与验证，大语言模型（LLM）和智能体（Agent）已经逐渐成为行业共识，落地到了生活各处。

AI 虚拟陪伴、AI 口语陪练、AI NPC、AI 游戏陪玩等应用遍地开花，由此也激发了对更优质的 AI 语音交互的强烈需求。

现在，
扣子上线了全新的智能语音 OpenAPI，让 AI 从“能说话”到“会说话”！

首次将“理解”的能力注入语音交互链路，它不只是在听你说话，而是在理解你说话的场景、语境、甚至情绪。

让 AI 开始像人一样思考和表达。

当你与接入扣子智能语音API的智能体或是 AI 应用交谈时，

它不只是在应答，而是在理解、思考、然后用最恰当的方式回应！

实测演示👇

1. Demo 配置流程视频演示

2. 与智能体实时对话测试

3. 语音对话过程中，支持实时打断

4. 轻轻松松进行逼真的音色克隆

这一切的实现归功于以下四个优势：

精准的识别： 使用大模型的 ASR 进行语音转文本，具备上下文理解能力（比如上文出现过的名词能在识别中复用，说话风格和代称也有更好理解），并对噪声、垂直领域、中英混说等复杂场景识别效果提升；
强大的 AI Agent 能力： 不只是听懂你说什么，更是真正理解你的需求。它包含了 Agent 各项能力，能够像人一样有记忆力（文件盒子、数据库、变量）、有知识（文本、表格、照片）、有技能（插件、触发器）、还能编排（工作流、图像流）等；
低延迟、可打断： 使用火山引擎 RTC 方案，把链路中的延迟充分降低，并确保即使在弱网络环境下也能通话顺畅。此外，智能体能毫秒级响应用户打断，流畅切换话题并即时反馈，模拟人类自然交流。火山引擎RTC的AI降噪可有效过滤超过90%的背景噪音，减少误打断，提升对话准确度；
自然的语音效果： 使用大模型的 TTS 进行文本转语音，根据上下文，智能预测文本的情绪、语调等信息；生成超自然、高保真、个性化的语音，在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人；即使是中英文混说也能行云流水应答自如。