专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

技术博客 | 使用 ASR 自定义增强电话客户服务

NVIDIA企业开发者社区 · 公众号 · · 2024-01-17 14:09

正文

自动语音识别 (ASR) 是正确理解他人和进行自然对话的核心。为了打造客户主导的语音助手并通过电话实现客户服务交互自动化，公司必须通过理解、同理心和清晰度等品质来解决赢得呼叫者信任的独特挑战。

从语音识别的角度来看，受电话限制的语音本质上具有挑战性。背景噪声、糟糕的通话质量以及各种方言和口音使得理解调用者的词语变得困难。传统语言理解系统通常对语音的支持有限，人们的说话方式与他们的输入或文本方式存在本质区别。

在本文中，我们将讨论 PolyAI 与第三方、开箱即用和内部定制的探索之旅 NVIDIA Riva ASR 解决方案。我们的目标是提供语音体验，让呼叫者可以以自己喜欢的方式说话，并在对话的每个回合中提供有用的自然响应。内部微调的 Riva ASR 模型显著提高了各种不同验证真实客户呼叫数据集的准确性。

开箱即用的 ASR 挑战，实现有效的客户交互

开箱即用的 ASR 工具通常适用于无噪音的环境以及发音清晰且具有预期口音的演讲者。这些系统无法预测呼叫者会说什么、怎么说或说话节奏。开箱即用的解决方案虽然有用，但无法根据特定的业务需求和目标进行定制。

为了实现能够高效处理客户交互的准确语音助手，组织需要一个可以微调的 ASR 系统，以显著提高词错误率 (WER)。

构建内部 ASR 解决方案的优势和挑战

为了真正理解不同地方、不同口音和杂环境中的人，对话式系统可以使用多个 ASR 系统、音素匹配、偏置关键字和后处理工具。

PolyAI 的机器学习团队通常在多个模型上严格测试了多个 ASR 系统，并应用口语理解 (SLU) 原则来提高转录准确性(图 1)。这项工作显著提高了真实客户电话通话中语音识别的准确性。

进一步优化呼叫者体验需要开发内部解决方案。

PolyAI 技术堆栈使语音助手能够准确理解字母数字输入和来自不同地方、不同口音和杂环境中的人员。

▶ 开发内部解决方案方法具有以下优势：

更高的准确性和性能：根据用户与系统对话的具体方式，对大量数据和语音活动检测器 (VAD) 上的模型参数进行灵活微调。
完全合规：采用自带云 (BYOC) 方法，向客户提供模型和整个对话式系统，而无需向第三方提供商传输数据。

▶ 除了巨大的优势之外，还有一系列独特的挑战。构建内部解决方案需要在以下领域进行大量投资：

昂贵的预训练数据：大多数模型需要大量高质量的带注释的预训练数据。
延迟优化：在研究过程中，这一领域经常被忽略。与文本聊天对话不同，语音对话的响应时间以毫秒计。每毫秒都至关重要。在对话开始时增加延迟可以减少调用大型语言模型 (LLM) 或文本转语音 (TTS) 模型的时间。

为内部解决方案选择和微调 ASR 模型

在广泛搜索解决内部构建挑战的 ASR 解决方案之后，PolyAI 决定采用 NVIDIA Riva，原因如下：

预训练模型的尖端准确性：使用大量的对话式语音数据进行训练。
通过完整的模型自定义提高准确性：包括对声学模型进行定制，以适应不同的口音、嘈杂环境或音频质量不佳的情况。
高推理性能：基于 NVIDIA Triton 推理服务器并经过实战测试，能够高效处理机器学习服务。

使用内部 ASR 模型进行的初始试验为微调过程提供了宝贵见解。这导致开发了一种稳健而灵活的微调方法，其中包含各种验证集，以确保获得最佳性能。

用于测试开箱即用和内部 ASR 解决方案的对话式系统

典型的对话式系统使用公共交换电话网络 (PSTN) 或会话初始化协议 (SIP) 连接将通话传输到技术堆栈。

然后，来自这些系统的呼叫信息将发送到第三方 ASR 云服务提供商或内部 ASR 解决方案。对于 PolyAI 的 ASR 解决方案测试(图 2)，在转录通话内容后，该信息将发送到 PolyAI 语音助手，由自然语言模型生成响应。然后，通过内部 TTS 或第三方提供商将响应传输回音频波。

创建真实的 ASR 测试数据集

PolyAI 发现，在英国和美国的区域通话中，有 20 个小时的最具挑战性的对话需要平均分配，以测试第三方、开箱即用和内部 ASR 解决方案的准确性。这些通话是在杂的环境中进行的，而其他 ASR 模型(内部或第三方供应商)以前也无法通过这些环境进行。

这些失败调用从单词语音 (例如“yes”或“no”答案) 到更长的响应不等。PolyAI 手动对其进行注释，并建立了低于 1% 的词错误率 (WER)，这在处理微调 ASR 模型时至关重要。

内部定制 ASR 解决方案的准确性显著提高

通过仅使用 20 小时的数据微调两个内部 ASR 模型，已显著提高了美国英语模型的平均 WER，与 CSP 的最佳模型相比，WER 降低了约 8.4%(表 1)。选择合适的模型非常重要，因为不同的开箱即用型 ASR 模型的平均值 WER 为 44.51%。

更值得注意的是，内部 US English ASR 解决方案的 WER 中位数为 0%。这一成果在各种数据集中得到验证，确保微调不会过拟合特定用例。这种通用性使模型能够在人们使用特定关键字的不同项目中表现出色，从而能够准确理解特定短语并提高整体中位数性能。

美式英语	提供商	模型	语言	WER 平均值[%]	WER MEdian[%]
0	Poly AI	微调	En-US	20.32	0.00
1	Poly AI	精细	En-All (全部)	22.19	7.14
1	CSP	最佳	En-US	22.22	7.69
9	CSP	最差	En-US	44.11%	33.33

表 1：PolyAI 内部的美国英语 ASR 解决方案通过声学模型微调实现了比第三方开箱即用 ASR 更高的准确性

英国英语 ASR 解决方案也观察到类似的模式(表 2)

美式英语	提供商	模型	语言	WER 平均值[%]	WER MEdian[%]
0	Poly AI	微调	英国	20.99英镑	8.33
1	Poly AI	精细	En-All (全部)	22.77	10.00
1	CSP	最佳	英国	25.15	14.29
9	CSP	最差	英国	33.46	25.00

表 2：PolyAI 内部英国英语 ASR 解决方案通过声学模型微调实现了比第三方开箱即用 ASR 更高的准确性

仅 20 小时的微调数据表明了进一步微调的潜力。更重要的是，在对各种不同的验证数据集进行评估时，内部微调的 ASR 模型保持了与初始预训练状态相同的分数。

总结

为了通过电话有效地自动进行客户交互，完全定制的 ASR 模型在解决语音通道的挑战（包括背景噪音、通话质量差以及各种方言和口音）方面发挥了关键作用。深入了解 PolyAI 的 ASR 转型之旅，探索语音 AI 和 NVIDIA Riva 通过查看语音 AI 日会议。

PolyAI 是 NVIDIA 初创加速计划下为企业提供的客户主导的对话式平台。要打造具有卓越语音体验的客户服务，请查看 PolyAI 的产品并注册以获取免费试用。同时，欢迎加入 NVIDIA Riva 论坛，参与语音 AI 对话。

▶ 以下为文中提及的所有外链，请复制粘贴至浏览器打开：

PolyAI：https://poly.ai/

NVIDIA Riva：https://www.nvidia.cn/ai-data-science/products/riva/

NVIDIA Riva：https://docs.nvidia.com/deeplearning/riva/user-guide/docs/asr/asr-overview.html

声学模型进行定制：https://docs.nvidia.com/deeplearning/riva/user-guide/docs/asr/asr-customizing.html#fine-tuning-existing-models

NVIDIA Triton 推理服务器：https://www.nvidia.cn/ai-data-science/products/triton-inference-server/

NVIDIA Riva：https://www.nvidia.cn/ai-data-science/products/riva/

语音 AI 日：https://www.nvidia.cn/events/speech-ai-day/

NVIDIA 初创加速计划：https://www.nvidia.cn/startups/

PolyAI 的产品：https://poly.ai/call-recordings/

注册以获取免费试用：https://poly.ai/request-a-demo/

NVIDIA Riva 论坛：https://forums.developer.nvidia.com/c/ai-data-science/deep-learning/riva/475

↙点击 “阅读原文”，查看更多技术博客。