专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【Science】无监督式机器翻译，不需要人类干预和平行文本

新智元 · 公众号 · AI · 2017-11-30 13:08

正文

新智元AI World 2017世界人工智能大会开场视频

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会 11月8日在北京国家会议中心举行，大会以“AI 新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况：

新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午： http://www.iqiyi.com/v_19rrdp002w.html

下午： http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

新智元报道

编译：弗格森

【新智元导读】 两篇新的论文表明，神经网络可以在不需要平行文本的情况下学习翻译，这是一个令人惊讶的进步，它将可以让人们可以读懂更多语言的文档。

因为神经网络，即一种以人脑为启发的计算机算法，自动的语言翻译取得了长足的进步。但是训练这样的网络需要大量的数据：通过数以百万计逐句对应的翻译来展示人类是如何做到这一点的。现在，两篇新的论文表明，神经网络可以在不需要平行文本的情况下学习翻译，这是一个令人惊讶的进步，它将可以让人们可以读懂更多语言的文档。

“想象一下，你给一个人很多中文书籍和大量的阿拉伯语书籍，这些书之间没有重叠，但这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的，对吧？”其中一项研究的第一作者，西班牙圣塞巴斯蒂安巴斯克大学（UPV）计算机科学家Mikel Artetxe说。 “但是，我们证明了，计算机可以做到这一点。”

大多数机器学习（神经网络和其他计算机算法都从经验中学习），是“监督式的”。计算机首先进行猜测，然后接收正确的答案，并相应地调整其处理过程。如果只是在两种常见的语言，比如英语和法语的翻译中使用这一技术，效果还是不错的，因为许多文档都以这两种语言存在。但是，对于罕见的语言或者那些虽然常见，但是缺乏平行语料库的语言来说，它的运行就不是很好。

这两篇论文都已经提交到2018ICLR，但是还没经过同行评议。两篇论文都聚焦另一种方法——无监督式的机器学习。首先，两项研究都分别在没有人类的帮助下构建了双语词典，也就是说，没有人会反馈给机器它们的猜测是否正确。这是可能的，因为不同语言在词的汇聚方式上有很强的相似性。例如，桌子和椅子这些词在各种语言中都会频繁地出现。因此，如果一台计算机将这些同时发生的事像一个巨大的道路地图集一样汇集起来，统一到“城市”这一词汇下，那么不同语言的地图其实是彼此相似的，只是名称不同而已。然后，计算机可以找出将另一个地图叠加在一起的最佳方式。