来源:亿欧
作者:潘梓春
一、谷歌最新推出Google Translate无需转录
谷歌最新的机器翻译使人们与那些讲不同语言的人交流起来更加容易,可以直接将语音转换成他们能够理解的语言文本。
语音机器翻译的常规工作模式是先将语音转换成文本,然后将其翻译成另一种语言,但语音识别中的任何错误都会导致转录过程中的错误以及翻译错误。
这家科技巨头的深度学习研究机构Google Brain的研究人员利用神经网络取代了中间环节。通过这种跳过转录的方法,使得翻译更准确、更快捷。
该小组对其系统进行了几百小时的西班牙音频培训,并附有相应的英文文本。在任意一种情况下,它使用数层神经网络——在人类大脑上大致建模的计算机系统,将口语西班牙语与书面翻译进行匹配。为了做到这一点,它分析了西班牙音频的波形,学习哪些部分看起来与哪些部分的英文书面对应。当它开始翻译后,每个神经层都运用这些知识来操纵音频波形,直到它变成相对应部分的书面英文。
“它通过学习去找到源语言和书面文本中的波形之间的对应关系模式。”加拿大蒙特利尔大学的Dzmitry Bahdanau表示,他不参与此项工作。
在一个学习周期之后,谷歌的系统完成了一个质量较高的英文译本,比先将语音转录成西班牙语之后写成西班牙语文本的效果要好。工作人员使用BLEU评分对其进行评估,该分数旨在用它与专业人员的翻译结果进行比对,根据接近程度来评判机器翻译成果。
英国爱丁堡大学的沙龙·戈德沃特(Sharon Goldwater)表示,这个系统对于翻译小语种语言特别有用。例如,国际救援队可以利用它迅速建立一个翻译环境来与他们正在努力救助的人交流。Goldwater说,2010年发生地震时,海地的克里奥尔语就缺少一个能用得上的翻译软件。
Goldwater的团队正在使用类似的方法将Arapaho从语音翻译成文本,这个语言只有1000人左右在使用,是美国原住民部落的同名语言;而Ainu,则是日本少数人所讲的语言。
该系统也可以用于翻译那些极少被写成文字的语言,因为它不需要借助源语言的书面版本来完成翻译。
Goldwater说,在测试一个规模比这大得多的数据集之前,人们无法将这种新方法与更常规的翻译系统进行真正意义上的比较,效果很难分辨。但她认为这可以为未来的机器翻译设定标准。
有些服务之前已经利用机器翻译来帮助那些语言不通的人之间实现实时对话。Skype在2014年推出了带有语音翻译功能直播,现在支持九种语言,包括普通话和阿拉伯语以及最普遍的欧洲语言。但是像现有的其他翻译方法一样,Skype在将语音翻译成不同的语言之前需要将其转化为文本。
在文本翻译服务方面Google Translate已经将神经网络运用在它流行度最高的语言上,这样使得它可以一次性分析整个句子,从而完成最恰当的书面翻译。有趣的是,该系统似乎使用了某种“中间语言”——一种用于不同语言但相同含义的句子间的通用表示方法,来将一种语言翻译成另一种语言,这意味着它可以在没有进行专门“学习”过的语言之间进行翻译。谷歌大脑研究人员提出,以文字方式进行新的语音处理或许能够建立一种可以翻译多种语言的系统。
Bahdanau表示,虽然机器翻译不断改善,但却很难说得清神经网络是如何实现它们的解决方案的。“很难理解这当中发生了什么。”
二、谷歌翻译在华上线:正努力重返中国市场
美媒称,谷歌公司3月29日推出了一款在一定程度上专门针对中国用户而且在中国可以使用的更新版翻译应用,这是该公司继续努力在部分领域重返中国市场的一个迹象。
报道称,随着新版翻译应用的推出,这似乎是中国用户第一次不必使用特殊软件就能够在安卓和苹果手机上下载和使用谷歌翻译服务。据了解,此次更新包括,语音翻译、点按翻译、实景翻译、离线翻译,而且还增加了英语与韩语间即时相机翻译功能。
谷歌方面称谷歌翻译此次更新最大的变化是“改善中国用户的使用体验”,事实上也的确如此。自2010年宣布退出中国市场后,谷歌一直保持着低调的姿态。他们看重的不但是广阔的中国市场,还有中国大量的创新人才。更新软件看起来是一件小事,却代表着谷歌的某种期许。可以说,没有中国的世界经济是不完整的,没有中国市场的国际市场也是残缺的。要回归中国,谷歌还有很长的路要走。
三、谷歌翻译面对百度遭“水土不服”?
阔别中国市场七年之后,谷歌翻译在产品体验上与国内这一领域的领头羊百度翻译有了较大的差距。
谷歌想在中国市场获得其在美国同样的领先优势并不容易,由于缺少大量、优质的语料训练,谷歌翻译在中英文互译的实际效果中和深耕中国市场的,被认为是最懂中文的百度短时间内还无法比拟。
可以想见,为了提高翻译的效果,谷歌此番低调开放内地市场的翻译App,第一阶段很大程度上是出于积累更多中文语料数据的目的,通过实时实景翻译等比较酷的玩法吸引用户更多的使用。
不过考虑到翻译本身的严肃性,在细节上略逊一筹的谷歌面对百度翻译的竞争依然缺少一定的底气。尤其是谷歌离开中国市场的这几年间,深度学习被应用到机器翻译领域,而机器学习的基础则是足够庞大的数据量。
在这方面,作为中文搜索市场份额最大的搜索引擎百度,自然是更具优势。从另一个角度来看,谷歌翻译此番重返中国市场本身也承载着为谷歌积累更多中文数据的重要任务。
本文来源New Scientist网站、参考消息、俊世太保,由Atman机器自动翻译,亿欧编辑整理。
本文作者潘梓春,亿欧专栏作者;微信:13501304665(添加时请注明“姓名-公司-职务”方便备注);转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。