正文
机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。
一、语音交互流程简介
AI 对话所需要的技术模块有 4 个部分,分别为:
-
自动语音识别(Automatic Speech Recognition, ASR)
-
自然语言理解(Natural Language Understanding, NLU)
-
自然语言生成(Natural Language Generation, NLG)
-
文字转语音(Text to Speech, TTS)
以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径:
从上图中可以看到,用户与设备之间的交互,主要是采用语音方式处理和完成的。
二、语音交互流程设计
一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。
1.交互流程的核心—意图
所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。
如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。
用户:七星彩的开奖时间是什么时候?
Ai:体育彩票七星彩每周二、周四和周日开奖。
2. 如何识别意图—语义解析
对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。
用户:我要{听} {周杰伦}的{稻香}
Ai:稻香.mp3
3.如何处理意图—云端交互
调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。
4.上下文意图的处理-对话管理
在用户进行自然对话时,可能会因为表达事情的复杂度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。
用户:明天北京天气如何?
Ai:明天北京天气晴,温度16到23度
用户:后天呢?{后天北京天气如何?}
Ai:后天北京天气晴,温度17到28度
5,语言合成模块 – 组织语言
根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)
三、 中文自然语言处理的关键技术
1、词法分析
词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。