《圣经》中记载着这样的传说,远古人类都讲一种语言,他们希望建造通往天堂的通天塔,也叫巴别塔(Tower of Babel)。为了阻止人类的计划,上帝让人类说不同语言,分成不同民族,在语言上无法自由沟通,巴别塔计划由此告终。重建巴别塔,也成了人类语言沟通和共识达成的象征和代名词。现在,AI让人类的梦想一步步走向实现。
弗雷德里克·贾里尼克
历史的探索
让人类实现无障碍沟通,这项AI工程有三块重要基石:语音识别、自然语言理解、语音合成。三块基石是三大类技术,分别解决人类语言交流中三个问题:听清楚别人说什么、 理解别人说什么、根据听到和理解的去回答别人。
语音识别,主要解决“听清楚别人说什么” 这个难题,这是AI中的重要技术领域。近年来,由于深度学习技术的应用,语音识别取得了长足进步。
1952年,贝尔实验室的K·H·戴维斯(K.H.Davis)等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国人彼得·迪恩斯(Peter Denes)等研制了第一个计算机语音识别系统。但从上世纪50年代到70年代,语音识别研究走了弯路,那就是简单地想电脑模拟人脑,认为必须先让机器理解自然语言。在当时计算机能力受限的情况下,这样的研究鲜有进展。
1970年后,统计语言学的出现打破了沉寂。领军人物是IBM沃森实验室的弗雷德里克·贾里尼克(Frederick Jelinek)。
贾里尼克用两个隐(含)马尔可夫模型(Hidden Markov Model)——声学模型和语言模型来清楚概括语音识别。这个框架至今对语言处理有着深远影响。
1999年,国际声学、语音与信号处理国际会议(ICASSP)中,已当选美国工程院院士的贾里尼克在大会上作了《从水门事件到莫尼卡·莱温斯基》的报告。这两件事和语音都有联系,而且时间跨度和语音识别都同样很长。隐马尔可夫模型处理语音也是从1972年开始,一直到贾里尼克作报告时还在进行,而且还将延续下去。
剑桥语音的黄金十年
1984年,美国国家标准及技术研究所(NIST)和DARPA决定出资开展语音识别评测标准的研究,希望能科学评估各种语音识别系统的性能。这件事影响了语音识别历史。
德州仪器公司(TI)、麻省理工学院(MIT)和SRI合作构建了第一个声学-音素连续语音语料库,并制定了数据采集标准,成为世界第一个语音评测平台。这一被称为TIMIT的数据库应用至今,语音识别研究者们有了评测算法的标准数据集。NIST举办的语音识别评测全球竞赛由此开始。
语音识别所研究的数据类型历经几次升级,由最早的孤立词语音发展到自然连续语音。然后,选取朗读“华尔街杂志”(Wall Street Journal)的语音录成标准数据库。这个数据集的词汇量为5000到20000, “大词汇连续语音识别”就始于此。上世纪90年代中期以后,广播新闻这样自发产生的连续语音、电话对话语音、丰富的语音文本、多语种语音等等也不断加入评测,NIST大赛越来越具有挑战性。
大赛1988年开始,1992年扩大到美国之外,成为全球大赛,剑桥大学等非美国机构,在那一年加入。1993年,剑桥大学夺取冠军。一战成名,剑桥语音成为全球语音识别界关注的焦点。
从1989年起,剑桥大学工程系机器智能实验室研究组就在史蒂夫·杨(Steve Young)教授的主持下开发 “隐马尔可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK软件包不是简单的语音识别系统,而是完整的研究平台。在这平台上,研究者可以方便地试验各种新式算法,搭建不同的语音识别系统。这样,HTK很快就成为了语音识别研究事实上的标准。而拥有平台的剑桥语音研究人员,近水楼台先得月。
于是,剑桥大学语音识别研究在大赛中连续十年取得优异成绩,许多影响深远的语音识别技术陆续在剑桥产生,并成为后来主流经典算法,这些成就轰动了全世界,被称为剑桥语音的黄金十年。
踏上商业化征程
语音识别也逐渐开始商业化。1995年,IBM开发出离散词汇听写软件,也就是后来的语音识别软件Via Voice的前身。IBM当时将语音识别率从70%提升到90%,同时识别词库的规模从几百个单词上升到几万个,语音识别从实验室走向实际应用。1997年,IBM推出了世界上第一个中文连续语音识别产品——Via Voice 4.0。该软件成功突破连续语音、大词汇量、非特定人的难关,据称解决了汉语同音字多、有声调、口音复杂等问题,可以帮助人们从键盘输入中解脱出来,IBM认为这是汉字输入的重要里程碑。
不过,中文版的Via Voice4.0刚推出,我就试用了这个软件,但很失望,远没有达到解放双手的愿望,使人感到实用的语音识别系统还在路上。当时,我并不知道,语音识别的大师们在此几年前已经纷纷离开了IBM。
剑桥大学的HTK语音开发平台也开始商业化,被微软收购。后来微软重新把HTK核心技术的使用权送还给剑桥大学。
语音识别专家、数据魔方智慧科技CEO张晴晴博士这样描述当时的情况:“深度学习之前,做语音识别门槛是很高的。语音识别涉及到信号处理、语音\语言建模、发音字典、解码、后处理等等,每个模块都足够一个博士研究好几年。”
在这样的研究环境下,掌握核心算法的公司很容易形成技术垄断。1992年创立的美国语音巨头Nuance,2005年在纳斯达克上市,一直深耕统计方法的语音技术,拥有大量的核心算法和数千件专利。苹果Siri采用了他们的语音技术后,Nuance公司在语音识别方面的技术实力也浮出水面。手机、家电、汽车等人机语音交互产品中,大量嵌入他们的语音识别系统,客户都是苹果、三星这样的知名厂商。
Nuance擅长利用自己在语音处理方面的知识产权打击竞争对手。用诉讼手段削弱具有创新力的对手,然后低价并购或让其破产。很长时间内,Nuance拥有绝对话语权,整个语音行业生态是——这棵大树下寸草不生。
深度学习带来曙光
学术界寻求理论突破,产业界望打破垄断,这样的氛围中,影响语音识别的重要角色在2006年后出现。没错,就是深度学习,或者说深度神经网络。
2006 年的一天,西雅图微软研究院的研究员邓力看到欣顿的一篇关于深度学习的论文《关于深度置信网络的一种快速学习算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己绞尽脑汁没有突破的问题,欣顿轻而易举就解决了。 2009 年,邓力邀请欣顿到西雅图微软研究院一起讨论,从此微软语音识别研究转入了深度学习方向。
谷歌稍晚了一点,但追赶得很快。出门问问公司CTO雷欣回忆,当年他在谷歌语音识别组担任研究科学家时,2011年夏天,欣顿的博士生纳瓦迪普·杰特列( (Navdeep Jaitly)来语音识别组实习,建议用深度神经网络来替代高斯混合模型做声学模型。短短的实习时间里,纳瓦迪普在实验中获得了显著超出谷歌原系统的识别结果。之后,谷歌工程师们很快将实验工程化产品化,2012年初发布在谷歌Voice Search主产品中。这是业界首次将深度学习用于大词汇量语音识别产品中。2012年下半年,雷欣将深度神经网络发布至Android JellyBean版本中,这也是业界首次将深度学习用于嵌入式语音识别产品。
微软语音识别研究取得惊人突破。2016年10月18日,由微软首席语音科学家黄学东博士带领的语音团队在权威的产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率5.9%,首次达到与专业速记员持平而优于大多数人的表现。这被认为是AI领域历史性的突破。
百度首席科学家吴恩达立即发推特祝贺微软的语音识别突破,同时话中有话地介绍一年前百度在中文语音识别上就达到的成绩。百度的Deep Speech2的短语识别的词错率已降到3.7%,也达到或超过人类水平。
巨头们高度重视用深度学习解决语音识别问题,带来产业格局变化。美国出现了几十家应用深度学习的语音识别技术公司。同时,专利和算法作用越来越小,场景应用能力和客户数据资源在竞争中变得越来越重要。
在语音识别应用场景创新方面,亚马逊的Alexa语音交互平台很成功。用Echo交互式蓝牙音箱,语音通过内置接口,进入 Alexa平台进行语音交互。2014年Echo推出后,两年多时间内应用场景爆炸性增长,从同步语音数据、播放音乐发展到几十种家电的智能家居设备控制,再到语音购物、语音支付、语音叫外卖、语音打车等多场景应用,亚马逊的Alexa人机语音交互玩得出神入化。以至于有人惊呼:“这就像是试图成为语音方面的谷歌或者语音方面的Windows操作系统,亚马逊是要拿走整个市场。”
亚马逊Alexa语音交互平台
场景应用,成为语音识别的新方向,也成为创业者的新机会。张晴晴博士这样分析语音识别的创业环境:“语音识别的门槛正快速降低。在大数据和云计算推动下,深度神经网络体现出强大的数据记忆能力,由此大大降低了语音建模难度。深度学习在数学原理上并不复杂并拥有大量开源工具,让初学者能够很快上手。语音行业从核心算法的垄断,转向对数据的垄断和对应用场景的理解和把握。语音识别的战场从科研界转向企业界,这给新来者提供难得的弯道超车机会。语音识别行业创业的春天已经到来。”
而中文语音处理行业也迎来新机遇。一个很有趣的现象是,在语音领域华人专家众多。这是因为语音识别等领域研究工作十分艰苦,华人勤奋好学。此外,中文语音处理市场非常广阔。
依托人才优势和中文市场,伴随中文语音技术的迅猛发展,云知声、出门问问等新企业应运而生,一大批中国AI企业崛起。更可喜的是,除了知名中国互联网科技公司在语音方面的进取外,以语音为特色的AI公司如科大讯飞等,也已经具备挑战国际巨头的能力。
在普及层面上,采用云识别的中文语音输入系统,已经渐渐成为手机和各种应用设备人机交互界面标配,语音技术不但已经解放了双手,还正在更广泛地进入和改变我们的生活。
重建巴别塔的第一块基石已埋下。机器已在聆听,它听得越来越清楚。
电脑报新媒体:孙文聪
点击下方阅读原文,关注电脑报新媒体矩阵更多精彩