史上第一次，AI能够自学翻译地球上的任何语言了

网络大数据 · 公众号 · 大数据 · 2017-12-05 11:41

正文

结合人工智能神经网络的机器翻译近年来取得了巨大的进步，以谷歌翻译为代表，足以让印象还停留在“生硬死板、破绽百出”的人惊讶万分。但是总体来说，也还是通过人类的已存翻译文本来学习。

据fastcompany报道，最新出现的两个机器翻译系统完成了崭新的突破——可以在无需人类翻译文本的学习资料的情况下，自主学习翻译地球上的任何语言。编译如下：

机器翻译发展惊人，但是地球上还是有数以亿计的人无法享受它的好处——因为他们的语言在翻译器的下拉菜单中根本找不到。

现在，两个新的人工智能系统——一个来自西班牙的delPaísVasco大学(UPV)，另一个来自卡内基梅隆大学(CMU)——承诺会改变这一切，为像《星际迷航》(Star Trek)中那样的真正的宇宙通用译者(universal translator)的到来打开大门。

要了解这些新系统的潜力，首先要了解当前的机器翻译是如何工作的。目前机器翻译的事实标杆是谷歌翻译，这个系统涵盖了从南非语到祖鲁语的103种语言，包括世界上前10种语言——顺序为汉语，西班牙语，英语，印度语，孟加拉语，葡萄牙语，俄语，日语，德语，和爪哇语。 Google的系统使用人类监督的神经网络，比较平行文本——以前由人类翻译过的书籍和文章。

通过比较这些平行文本中的大量数据，Google翻译可以学习任意两种指定语言之间的对等关系，从而获得在它们之间快速转换的能力。有时候翻译结果会很有趣，可能并不能真正反映原文的意思，但总的来说，这些翻译是功能性的，随着时间的推移，他们会越来越好。

Google的做法很好，而且很有效。但不幸的是，它并不是全球通用。这是因为有监督的培训需要很长的时间以及很多监督人员——因为太多了，谷歌使用了众包——也因为并非世界所有语言之间都有足够多的并行翻译文本。想想看：根据世界语言民族学目录，地球上有6,909种生活语言。其中414种的使用人数占人类总数的94%。由于Google翻译涵盖了103个，因此会留下6,806种语言没有机器翻译——其中有311种语言的使用人数超过百万。总的来说，至少有八亿人不能享受机器自动翻译的好处。

这两个新的系统——可以在任何语言之间翻译单词和句子——无需通过比较大量由人类翻译的平行文本来学习。他们也不需要监督。相反，他们使用未监督的机器学习，并比较不同语言的随机文本。这是如何运作的?由于语言的词语分类是相似的，所以系统猜测这些词是否相等，用这些信息构建翻译词典。他们从中找出句子结构，通过在不同的语言之间来回翻译来评估他们猜测的结果。

正如UPV的研究员Mikel Artetxe所描述的那样：“想象一下，你给了一个人很多的中文书籍和阿拉伯语书籍——这些书都不重叠——然后这个人必须学会把中文翻译成阿拉伯语。

这似乎是不可能的，对吧?“事实上，这看起来实在太不可能了，以至于微软人工智能专家Di He(这两个研究项目的启发者)告诉科学界，他得知”即使没有人工监控，电脑也可以学习翻译”的时候，整个人都震惊了。

史上第一次，AI能够自学翻译地球上的任何语言了

正文

请到「今天看啥」查看全文