Systran公司
这家几十人的小公司,一直靠自己的技术从上世纪60年代走到今天。慢慢发展到支持多语种互译,产品大量内嵌在雅虎、谷歌、美国在线等公司的翻译系统中。Systran公司年销售额只有1000多万美元,但在100亿美元的机器翻译市场中,却一度占了内嵌翻译引擎很大的份额。“我们公司如此之小,可我们又是最大的。”Systran 公司董事长自豪地说。
关键的一战终于在2005年打响。已经成为互联网搜索巨头的谷歌公司虽然采用了Systran的规则翻译技术,但一直想充分利用自己的大语料库。从2002年起,谷歌挖来统计语言处理天才弗朗兹·奥克(Franz Och), 组建机器翻译团队。2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,在NIST(美国国家标准与技术研究院)组织的机器翻译竞赛中大获全胜,比赛提供100篇新闻文稿,将阿拉伯语或汉语译成英语,谷歌公司的系统在所有类别上全胜,击败包括IBM在内的全部对手。
奥克赛后披露,他们为自己的系统提供了相当于100万部图书的文本语料进行学习,这成为了提高翻译质量的关键。他还把公司当时采用的Systran中英翻译系统,与其基于统计的实验系统作了对比,认为后者明显优于前者。
这场竞赛,被看成是统计机器翻译系统正式登基的标志。
巴别塔终将建成?
2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran只好转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。
从此,机器翻译高歌猛进,不断向各个应用纵深发展,也成为衡量巨头科技公司AI水平的一个标志。
谷歌翻译是最有名的机器翻译产品,2006年上线以来,已经能支持 103 种语言,每天处理1800 万次翻译,共1400亿单词,一直是业界的标杆。2016年9月28日,谷歌发布新的神经机器翻译系统GNMT,同时发布了PC和移动版。这套系统克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。据说,在新技术使用后,翻译错误可减少至少60%。谷歌新的翻译系统在支持困难的中-英文翻译上,有了很大的提升。
谷歌大脑的研究团队甚至表示,虽然它还会犯一些人类译员不会犯的重大错误,比如说漏掉一些词语、脱离语境孤立地翻译句子等,但使用新技术后的翻译质量,已经接近普通人类译员水平。
与前面那位日本专家对谷歌新系统英日翻译能力进行的测试相仿,2017年1月,在美国总统特朗普就职时,中国国内的AI新媒体“新智元”对谷歌的新翻译系统作了中英文翻译测试。输入特朗普就职演说的英文,一分钟后,谷歌翻译全文翻译成中文。新智元的评测结论是:通篇来看,谷歌翻译在正确性上已经让人印象非常深刻,基本上达到70%到80%的正确率。如果不是准确性要求非常严格的文本,在可用性上基本可以满足。
微软一直有规模可观的自然语言处理团队,与谷歌不同,团队最初聚焦于基于规则翻译,但现在已经采用深度神经网络统计翻译。微软的机器翻译系统支持微软产品线上的很多产品,如Bing(必应)、Skype等。2014年12月,微软的Skype翻译器推出了预览版,当时只支持英文和西班牙文在通话中翻译,但已经引起轰动;到了2015年4月,已经能支持中文普通话。尽管Skype的通话翻译还在发展之中,目前翻译的准确率也有待继续提高,但已经让人想象不同语言的人可以无障碍自由通话的美好前景。2016年12 月,微软发布了世界上第一个万能翻译器。除了支持语音识别、拍照识别、直接输入等翻译功能外,它甚至可以实现多达 100 人之间实时翻译交谈,是一个翻译神器。
中国在机器翻译上表现也非常出色。
科大讯飞在语音合成、语音识别和语义理解方面一直走在世界前列,2014和2015年两次在国际汉英翻译大赛IWSLT中获得全球第一,2015年口语机器翻译系统获NIST国际评测冠军。在2016国际知识图谱构建大赛(KBP)上,科大讯飞首次参赛就包揽了赛事核心任务的冠亚军,充分展示了讯飞在自然语言理解、知识推理等领域国际顶尖的技术实力。讯飞的多语种实时翻译技术处于全球先进行列,同样有自己的互译神器——晓译多语种翻译机。AI实力雄厚的科大讯飞,能够面对任何竞争。
与谷歌一样搜索起家、拥有大规模语料库的百度,对机器翻译当然不甘落后。2011年7月,百度翻译上线,到目前已经支持28个语种,同时在PC和移动端应用。2015年5月,百度翻译正式上线神经网络机器翻译(NMT)系统,成为全球第一个实用NMT,比谷歌还要早一年多。同年,百度翻译获得了国家科技进步二等奖,成为首个获此殊荣的中国互联网企业。
百度翻译也有自己的特色,独创实物翻译、涂抹翻译、文言文翻译等功能,能随时随地、便捷地满足中文用户的翻译需求,是中国人工作、生活、旅游、学习的好帮手。
2016年11月,李彦宏在乌镇召开的第三届世界互联网大会讲演时乐观预言:未来的若干年,我们很容易想像语言的障碍会完全被打破,现在做同声翻译的这些人,可能将来就没有工作了。
无独有偶,奇点论鼓吹者、美国未来学家雷·库兹韦尔(Ray Kurzweil)在接受《赫芬顿邮报》采访时也预言:到2029年,机译的译文质量将达到人工翻译的水准。
自然语言处理和机器翻译已经取得了辉煌的成就,重建巴别塔,让全世界不同民族说不同语言的人,实现无障碍交流的日子,不太遥远了。