专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
爱可可-爱生活  ·  【macmon:适用于苹果硅处理器的性能监控 ... ·  4 天前  
十字路口Crossing  ·  这绝对是你想不到的 2024 年 AI ... ·  5 天前  
十字路口Crossing  ·  这绝对是你想不到的 2024 年 AI ... ·  5 天前  
爱可可-爱生活  ·  【Lyceum:一款多人在线游戏,服务器用E ... ·  5 天前  
调研纪要  ·  涨价全面扩散 ·  1 周前  
51好读  ›  专栏  ›  字节跳动技术团队

「会说话」的 AI ,扣子智能语音 OpenAPI 开启内测申请

字节跳动技术团队  · 公众号  · AI 科技自媒体  · 2024-11-17 09:40

正文

给客服打电话总是遇到让人高血压的 AI ?

智能音箱对话时总是被错误识别?

AI 陪伴机器人总是感觉有点呆板?

语音交互体验

似乎成为了 AI 落地的一块绊脚石。

试试扣子智能语音 OpenAPI ,

将有望使这种情况成为过去式!


经过这近两年来的发展与验证,大语言模型(LLM)和智能体(Agent)已经逐渐成为行业共识,落地到了生活各处。

AI 虚拟陪伴、AI 口语陪练、AI NPC、AI 游戏陪玩等应用遍地开花,由此也激发了对更优质的 AI 语音交互的强烈需求。


现在,
扣子上线了全新的智能语音 OpenAPI,让 AI 从“能说话”到“会说话”!

首次将“理解”的能力注入语音交互链路,它不只是在听你说话,而是在理解你说话的场景、语境、甚至情绪。

让 AI 开始像人一样思考和表达。


当你与接入扣子智能语音API的智能体或是 AI 应用交谈时,

它不只是在应答,而是在理解、思考、然后用最恰当的方式回应!

实测演示👇

1. Demo 配置流程视频演示

2. 与智能体实时对话测试

3. 语音对话过程中,支持实时打断

4. 轻轻松松进行逼真的音色克隆


这一切的实现归功于以下四个优势:

  1. 精准的识别: 使用大模型的 ASR 进行语音转文本,具备上下文理解能力(比如上文出现过的名词能在识别中复用,说话风格和代称也有更好理解),并对噪声、垂直领域、中英混说等复杂场景识别效果提升

  2. 强大的 AI Agent 能力: 不只是听懂你说什么,更是真正理解你的需求。它包含了 Agent 各项能力,能够像人一样有记忆力(文件盒子、数据库、变量)、有知识(文本、表格、照片)、有技能(插件、触发器)、还能编排(工作流、图像流)等;

  3. 低延迟、可打断: 使用火山引擎 RTC 方案,把链路中的延迟充分降低,并确保即使在弱网络环境下也能通话顺畅。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,模拟人类自然交流。火山引擎RTC的AI降噪可有效过滤超过90%的背景噪音,减少误打断,提升对话准确度;

  4. 自然的语音效果: 使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;即使是中英文混说也能行云流水应答自如。


目前,扣子语音功能正在内测中,

扫描下方二维码或点击「阅读原文」

即可申请成为扣子产品体验官!


从“能说话”到“会说话”,

扣子智能语音 OpenAPI ,

正在迈出 AI 应用的一大步。


🙋 扫码加入交流群


关注扣子Coze公众号,后台回复「语音」,获取更多细节!

合作&转载:[email protected]

点击 「阅读原文」,报名参与扣子语音功能内测!