专栏名称: 数盟
数盟(数据科学家联盟)隶属于北京数盟科技有限公司,数盟致力于成为培养与发现“数据科学家”的黄埔军校。 数盟服务包括:线下活动、大数据培训。 官网:http://dataunion.org,合作:[email protected]
目录
相关文章推荐
数据派THU  ·  从头构建GPT文本分类器(Python) ·  23 小时前  
大数据分析和人工智能  ·  免费领取DeepSeek教程 ·  2 天前  
数据派THU  ·  【ICLR2025】AdaWM:基于自适应世 ... ·  3 天前  
赛立信媒介研究  ·  【融媒数据】2024年12月国家级广播频率微 ... ·  2 天前  
赛立信媒介研究  ·  【融媒数据】2024年12月国家级广播频率微 ... ·  2 天前  
大数据分析和人工智能  ·  35岁被优化,经济压力大,看DeepSeek ... ·  5 天前  
51好读  ›  专栏  ›  数盟

不再需要词典了,现在,AI通过无监督学习学会了双语翻译

数盟  · 公众号  · 大数据  · 2017-12-01 22:00

正文

由于神经网络技术的发展,翻译自动化已经取得了长足的进步。然而传统上,训练这样的神经网络需要大量数据:通过数百万的逐句对照来展示人工如何翻译。

两篇最新论文表明,在不需要平行文本(即同一段文本的不同语言版本)的情况下,神经网络也可以学会翻译。这样的进步可以帮助我们阅读更多不同语言的文档。

西班牙巴斯克大学计算机科学家Mikel Artetxe表示:“请想象一下,你给一个人大量的中文图书和大量的阿拉伯文图书,两者之间没有任何重叠,随后让这个人学习把中文翻译成阿拉伯文。这似乎是不可能的,对吧?但我们已经证明,计算机可以做到这点。”

大部分的机器学习系统是“受监督”的。计算机做出猜测并对比正确答案,随后调整流程。这种方法在训练计算机翻译英文和法文时效果很好,因为许多文档同时有这两种语言的版本。但对于小语种,或是缺乏平行文本的语言,这种方法就不是太好。

这两篇论文已经提交至明年的ICLR大会,但还没有经过同行评审。论文专注于另一种方法:无监督机器学习。

首先,计算机在没有人工帮助的情况下创建双语词典。这是有可能的,因为语言的单词集群方式有很强的相似性。例如,“桌子”和“椅子”这样的单词在所有语言中都会经常同时出现。

因此,如果计算机将这些常常共同出现的单词匹配起来,那么不同语言的图谱彼此之间很相像,仅仅只是叫法不同。计算机可以找到最佳方式,将一种叫法匹配至另一种。这样,你就有了一本双语词典。

新论文提出的方法类似,但可以在句子层面进行翻译。

论文中使用了两种训练策略,分别为反向翻译和去噪声。在反向翻译训练中,一种语言的句子被粗略翻译成另一种,随后再反向翻译回来。如果反向翻译的句子与原始句子不同,那么神经网络就会调整,在下次翻译时力求让结果更接近。去噪声方法与反向翻译类似,但并不是将一个句子来回翻译,而是向句子中插入“噪声”(打乱单词或插入单词),随后再将翻译后的句子再翻译回来。通过两种方法的结合,神经网络就可以了解语言的更深层结构。

两篇论文的技术之间存在些许差异。在训练过程中,巴斯克大学的系统会更频繁地进行反向翻译。由Facebook计算机科学家Guillaume Lample及其同事设计的另一种系统在翻译过程中则加入了额外的步骤。在翻译至其他语言之前,两个系统都可以将原始语言的句子编码为更抽象的表述。不过,Facebook的系统会验证,中间的过渡“语言”是真正抽象化的。Artetxe和Lample均表示,通过应用对方论文中的技术,结果有所改善。

两篇论文提供了唯一的直接可比结果,即3000万句英文和法文之间的双向翻译。两种方法在两个方向上取得的双语评价演习得分(用来衡量翻译的准确性)均约为15分,与谷歌翻译相比要低。谷歌翻译采用了受监督的方法,得分约为40分。而人工翻译的得分通常超过50分。

不过,这要比逐词翻译的结果要好。论文作者表示,通过半监督方法,即在训练中加入数千个平行句子,系统的优化并不难。

Artetxe和Lample表示,除了用于无平行文本的翻译之外,他们的系统还有助于语言的匹配,例如英文和法文之间的匹配。例如,现有材料很可能是一条新闻的不同语言版本,而配对结果可以用于新的领域,例如街头俚语或医学术语。Artetxe论文的合作者Eneko Agirre表示:“这还是在起步阶段,我们刚刚开辟了新的研究方向,因此还不知道未来究竟会通往何处。”

微软亚洲研究院科学家He Di的研究对这两篇论文产生了影响。他表示:“计算机可以在没有人工监督的情况下学会翻译,这令人震惊。”Artetxe表示,他提出的方法与Lample的方法非常类似,这令人惊讶。“但与此同时,这也是件好事。这意味着,这个方法确实是正确的方向。”这两篇论文同一天上传至arXiv。







请到「今天看啥」查看全文