最近科大讯飞的语音识别又火了,其实百度也一直在做相关的研究。
人工智能领域的科学家极少担心世界会被AI统治,是因为他们知道为了让机器能够听懂人类语言,他们就付出了数年的努力,谷歌、百度以及微软这些公司正在做这样的事情。
“我想听柴可夫斯基”,百度美国研究院AI实验室主管Adam Coates向我展示了他们新的语音识别产品,当他对着百度的新的输入法说出这句话时,键盘上录入了相应的文字。
“大多数输入法左下角都有一个麦克风,但一般人们都不用它,因为人们认定这个不会好用。”Adam说,这是很多语音输入被忽略的原因,而百度的一项最新研究,目标是让语音输入比打字更快更精确。
让机器从听准到听懂
约两年半前,Adam从斯坦福大学毕业,跟随导师吴恩达来到百度做深度学习方面的研究,主要将其应用于语音识别。
在百度美国AI实验室,大多数员工都是美国人。在语音识别上,他们首先开发的是英语的版本。用深度学习做语音识别,最重要的环节是“训练”机器,即让系统学习足够的语音数据,在听到不同的语句时,能够识别得出来。
“我们给机器训练了很多英语的数据,成千上万小时。”Adam说,到2015年年中的时候,他们做出了识别率非常高的实验室版本,此后花了近一年时间做成了产品,目前在安卓平台已经能够下载使用。
“我朋友都挠着头跟我说,Adam你可是在百度这样一个中国公司,开发一个英文语音识别工具有什么用呢?”但Adam等人对深度学习有更深的了解,知道在此基础上开发中文识别版本并不是难事。
如果使用传统的机器学习路径,开发成其他语言版本几乎需要重新开发一遍。“听语法、听语音,还要雇佣一堆了解方言的工程师去反复检查,系统几乎要重新做一遍。”Adam介绍说,但因为使用的是深度学习的路径,只需要把中文语音数据灌入原有的算法中,训练一定时间,系统就学会了识别中文。
现在百度语音系统在Adam团队基础上开发出了中文的语音识别平台。“普通话是非常复杂的,现在他们把基本的算法用到了中国,让我很自豪的是,我们整个英语团队研发的语音识别系统,在影响着中文使用者。”Adam说。
百度语音识别的一个长处是能够在中英文混合语境中转换自如。“很多中国人在说话时会夹带英文单词,比如你们那很有名的明星‘Angelababy’,在百度的语音识别中能够自动转换。”Adam解释说。
深度学习如今是硅谷最流行的技术,能够应用在诸多领域。谷歌大脑负责人Jeff Dean最近在接受采访时表示,谷歌现在把深度学习主要利用在自然语言理解和机器感知、医疗以及机器人等领域。而通俗来说,就是让机器学会像人一样能够听懂、看得见,从而对外部世界做出反应。
“我想百度AI实验室认为改变机器和人交流的方式,让机器能够理解和识别自然人类的自然语言,是目前最重要的事情。”Adam说,他们团队这几年致力于把深度学习运用在人力自然语言识别和理解上,而这也是基于中国市场的需求和痛点而言的。如果想得更远一些,这能够让那些不识字的群体像受过教育的群体一样与机器自然交流。
“如果语音输入能够达到相当高的准确度,人们为什么还会用键盘输入?”Adam说,在机器对人类自然语言处理准确度达到一定程度时,会改变人们的输入习惯,同时改变人们和机器交流的方式。
不仅仅是百度,各家都在做这样的事情,近日微软发布报告表示,微软经过训练的神经网络已可以像人类一样识别人类的语音。微软让NIST 2000自动化系统与专业速记员进行了比赛,结果显示,自动化系统的错误率首次低于人工。报告称:“这是会话语音领域首次报告的(自动化系统)达到人工水平。”
“即便在五年前,我都没想过我们有一天能达到这个水平,连可能性都没有想过。”微软人工智能与研究团队的执行副总裁沈向洋说。