1957年,AI技术之父赫伯特·西蒙就曾这样预测过人工智能的未来
:
“我不是故意让你震惊,但概括来说,现在世界上就已经有了可以思考,可以学习和创造的
机
器,而且它们的能力还将与日俱增,一直到人类大脑所能够应用到的所有领域。”
这是来自半个世纪前的想象,如今,人类正在一步一步走向
预言的终点。
人们对于AI的憧憬一直都从未停止。
50年后,在《钢铁侠》电影中,无所不能,可以随叫随答,超级计算机组成的头脑外加一天24小时待命不用吃也不用睡的超级管家贾维斯成了人们最新的期待。
人机交互一直以来的重点都是语音技术。在6月22日腾讯“云+未来”大会上,AI大世界又多了一位人工智能的朋友“小微”。
“小微”全名
腾讯云小微智能服务解决方案
,由于采用了微信的
语音识别、语义分析技术
作为底层能力,因此得名
“小微”
。至此,人类研究
机器识别语音技术的“仿生学”步伐也又向前迈进了一小步。
小微虽然没有血肉,但却有着一颗“虚拟大脑”,随时等候听从来自人类的需求。
这颗大脑——帮助小微实现了人机交互的语言系统,究竟是如何运作的呢
?
下面要介绍的,是
微信语音识别听出人们语音的过程
。
其实,
机器对语音进行识别的过程和人类非常相似
。通俗地说,人耳辨别的拼音便是机器所辨别的发音单元。
比如说,理解“小微,我好无聊”这句话,人们会先听到音节“xiao wei,wo hao wu liao”,再逐一理解每个字词“小微、我、好、
无聊
”,最后连起理解完整的一句话。人们先理解字词,然后才是句子。机器对语音的识别也是按照同样的流程。
*图片释义:
每个小竖条代表一个发音单元,若干个发音单元组合成一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词,最后形成完整的一句话。(图片来自于网络)
但
对于微信语音识别系统来说,语音数据,只有转化成数字符号系统才可以识别
。就像美妙的音乐,可以转化成“用1、2、3、4、5”来表示的简谱表一样,微信的语音识别系统采用了一系列复杂的函数去将这些数字符号化让机器去辨识。
其中,微信语音识别运用到了一个最重要的技术,那就是
“深度学习”
。
机器用深度学习的方式模仿了人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。简单点说,语音识别系统就好比一个孩子咿呀学语的过程,听到的话越多,“虚拟大脑”中储存的数据也就越多,越容易识别出好的结果。
听到了语音,接下来就要做到理解并且回复,接下来介绍微信采用的
智能语义分析技术
。当微信语音系统接收到用户的需求,会对用户输入的这些语音内容进行分析,理解用户意图并作出正确的回应。这个过程主要包括Query分析、意图识别、候选召回、结果融合等几个步骤。
Query分析
其实和我们阅读理解题有点像,在这个过程中,微信语义分析系统会先从字面意义上理解用户输入。
首先,语音内容将会被切分成一个个独立的词语。比如“我要听刘德华的冰雨”这句话,会被切分成“我|要|听|刘德华|的|冰雨”。分词后的query将被进行标记,机器可以识别出文本之中人名、地名等专有名词并加以归类。通过序列分析技术,“刘德华”会被识别为歌手名,“冰雨”会被识别为歌曲名。如果用户是准备闲聊,通过深度学习生成式模型和对话数据构建的模型,微信语音可以直接生成多样化应答,陪伴用户。
接下来
分析用户当前的意图
,这一部分也是当前语义分析技术的重难点。比如用户先说“听刘德华的歌”,然后再说“周杰伦的”,这时单根据这一句话我们可能还无法分析出用户是需要听音乐的,但是结合上一轮的语句分析,就可以判断出当前的音乐意图。
微信语义分析运用的
上下文改写技术
使对话系统的智能水平有了极大的提高。这种技术将上下文与当前query改写为完整意思的一
句话,从而将多轮对话转成单轮对话进行解决。
这其实与我们日常对话很像。与人对话过程中,不管对方说了什么,实际上我们也只是先理解到目前为止,然后再回答。
这种方法既保留了语句的直观性,还保证了语义的连贯性,同时盘活了单轮对话中各种成熟的搜索技术。
当认定了用户意图后,微信的语义分析系统会综合之前所有模块的分析结果进行重新排序,并返回最好的候选回答结果给用户。在这一步骤中,首先会利用排序模型做一个基础排序,然后根据用户反馈进行调权,从而确定最终的排序结果。