专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
量子位  ·  迁移DeepSeek-R1同款算法,小米让7 ... ·  17 小时前  
爱可可-爱生活  ·  今日推介(第1712期):端到端训练Agen ... ·  21 小时前  
爱可可-爱生活  ·  【MCP(Model Context ... ·  昨天  
爱可可-爱生活  ·  本文提出了 SEARCH-R1 ... ·  昨天  
51好读  ›  专栏  ›  机器之心

专访 | 搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

机器之心  · 公众号  · AI  · 2017-01-23 12:33

正文

2016 年 5 月 19 日,搜狗正式上线英文搜索。搜狗英文搜索可提供跨语言检索功能,可自动将中文翻译成英文进行查询,再生成英文查询结果。对于不擅长英文的用户,可以节省很多「先翻后搜」的搜索时间;在 11 月的乌镇世界互联网大会上,搜狗展示了机器同传技术,可将演讲者的中文同步翻译成英文并实时上屏;12 月 21 日,搜狗英文搜索正式升级为搜狗海外搜索频道(overseas.sogou.com),并同步上线了搜狗翻译频道 (fanyi.sogou.com)。

近三年来,「神经网络机器翻译技术」成为人工智能翻译主流。该技术通过「端到端」的方法将翻译平行语料进行映射,以「编码器—注意力机制—解码器」的结构,解决翻译问题。


自 2016 年 8 月搜狗 NMT 团队成立至今,其自主研发的「机器翻译·一期系统」基本搭建完成。近日,人工智能媒体《机器之心》对搜狗 NMT 团队进行了专访。搜狗搜索技术负责人许静芳、搜狗搜索机器翻译负责人翟飞飞、清华计算机系副教授刘洋,就「搜狗神经机器翻译」的优势、团队组建和技术拓展等问题,展开了深度的分享。


采访如下:


搜狗翻译可生成更流畅的翻译结果


机器之心:神经机器翻译(NMT)将整个输入句子视作翻译的基本单元,相比于之前的基于短语的翻译系统,除了所需的工程设计更少这个优点外,句子意思理解的精确度有哪些提升?


刘 洋: NMT 有两个关键的技术很重要,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,比如中英文结构差异特别大,词语顺序存在全局变化,NMT 处理这种情况特别有优势,生成的译文要比传统的方式生成的译文流利很多,这是 NMT 很突出的特点。


翟飞飞: 在统计机器翻译中,我们使用调序模型来处理不同语言之间词序不同的问题。但在处理长距离调序时,由于搜索空间太大,调序模型很难做到有效建模,导致许多统计机器翻译系统生成的译文存在较多词序错误,难以看懂。但 NMT 的模型架构对处理长距离调序问题特别有效,生成的译文更为流利。


搜狗翻译有望实现「多场景即时对话翻译」


机器之心:在更高层次上自然语音处理上,实现两种语言的实时对话还需要多久?


搜狗搜索技术负责人许静芳


许静芳: 我觉得这个会很快,当然有一个前提,就是提出什么样的要求,如果要求特别流畅,包括上下文的理解,那不一定能做到。但由于语言的障碍,至少可以从以前的不能交流变成现在能够辅助理解和交流,这个会非常快。在某些场景口语交互或者日常的生活场景上,达到非常流利地交流,我觉得这也是在一两年的时间内可以做得非常好的一件事情。


当然这里面也会涉及到更多的口语上的交互,又会和语音挂上钩,涉及到多种语音识别,包括和口音、设备关联在一起,会很复杂。但单纯在翻译这个层面,这个会非常快,现在已经做到有帮助。


清华计算机系副教授刘洋


刘 洋: 我个人觉得在「多场景即时对话翻译」领域至少有两个挑战。从方法层来说,最难的就是语言歧义性问题,这是自然语言处理所最大的挑战。人类语言和机器语言不一样,机器语言要求精准、没有歧义,比如 C+,JAVA。但是自然语言的歧义性很高,比如英文词「bank」,既可能是指「银行」,也可能是指「堤岸」。口语交互过程中歧义现象很严重。


从数据层面来说,无论是语音识别、机器翻译还是语言合成,都是数据驱动的方法,系统性能严重依赖于标注数据的规模、质量和覆盖率。对于开放领域的即时对话翻译而言,目前还缺乏大规模、高质量、广覆盖的标注语料库。


搜狗翻译水平已部分超越 Google 等巨头


机器之心:通过深度学习来搭建的实时翻译技术与数据密不可分,搜狗的 NMT 在大型数据集上工作有哪些挑战?


许静芳: 我想这个挑战应该是对所有机器翻译团队都类似的一个有趣的现象是业内翻译做得好的团队大多来自搜索公司。搜索和翻译本身是密不可分的,这个密不可分首先是数据层面,语料的挖掘,搜索本身天然有优势,在这里面,其实都涉及很多自然语言处理、数据挖掘的问题,搜索积累的经验可以很快地应用到翻译上来。


机器之心:相较于谷歌和百度的神经机器翻译,搜狗这次发布的神经机器翻译有哪些差异性的特征?


许静芳: 首先,对翻译问题的理解、重视和投入问题,在不同的公司不同的阶段是有差异的。其次,聚焦在技术上面,NMT 从发展到应用在商业系统里也就这一、两年左右的事情,本身这个技术正处在非常快速的迭代的过程中。如果现在要去比较我们(搜狗)和百度、谷歌的差异,我们自己本身在翻译的模型,语料的挖掘,特别是深度学习模型很大,用的语料很多。在模型在分布式训练上,搜狗也有自己的创新。我们和谷歌最新的工作去对比,在某些方法上,可以看出我们比谷歌做得好,最终在中英两种语言互译的效果优于也验证了这个事情。搜狗比谷歌更有动力去做好翻译这件事情。


搜狗翻译技术持续改进,未来可期


机器之心:刚才谈到模型,现在 seq2seq+attention 的模型已经在 NMT 及其他众多 NLP 任务上取得了非常好的效果,我也注意到搜狗的神经网络做到了 5 层。之前有些论文提到了通过增加更多层的网络来取得更好的效果,您认为这个准确吗,通过不断增加网络层数来提升效果?


许静芳: 我觉得这是方法之一,但不是唯一的方法,而且层数变深了以后,在数据和模型训练,包括网络的结构和优化方法上,都应该去适配这样的网络结构,所以我觉得适当加深层数是一种有效的方法,但不是唯一的途径。


刘 洋: 增加层数肯定有帮助,能够提高模型的表达能力,但是层数增加的越多,训练的难度也越大,需要更先进的技术。


机器之心:这种模型(seq2seq+attention)在效果方面是否已经达到了上限,从而需要新的模型解决?


许静芳: 我觉得远远没有,从算法层面,这种网络的结构只是其中之一,包括损失函数的设置、先验知识连接、模型后处理等方面都有很多工作要做。


刘 洋: 肯定有提升空间。目前看来,有两个问题非常明显。第一个问题是漏词。很多用户反映神经机器翻译系统在生成译文时经常漏掉重要的词没有翻译,严重影响了译文的忠实度。


另一个问题是缺乏篇章一致性。目前的翻译都按照句子为基本单位进行翻译,没有考虑篇章层面的上下文信息,会导致翻译同一个篇章出现同一个词在不同句子中的译法不一样。


搜狗独创的「深度学习」训练模型







请到「今天看啥」查看全文