耶和华说:“看哪,他们都是一样的人,说着同一种语言,如今他们既然能做起这事(建造巴别塔),以后他们想要做的事就没有不成功的了。”——《圣经》
《圣经》用巴别塔的故事解释了人类语言复杂性的起源,但是,千百年来,虽然面临重重阻碍,人类从未放弃过建造巴别塔的愿望,从职业翻译的出现到国际语的出现都是如此。
智能时代为跨语言交流提供了有力的武器——AI。机器翻译大大降低了翻译的门槛,并且,当下众多科技公司都是免费提供这一服务。如果要评选一个离大众最近的人工智能产品,机器翻译绝对不能忽略。
以时下用户量较大的微信为例,在微信中长按文字,可以进行实时翻译,这就是大众以最简便的方式能感受到的机器翻译。网易有道正是微信的翻译提供商之一。
机器翻译这一已经“飞入寻常百姓家”的AI技术有什么特点?最近的技术焦点在哪?当下国内外的市场格局如何?未来会走向何方?带着这些问题,新智元近日独家专访了有道CEO周枫。
周枫先生现任网易高级副总裁,网易有道CEO。周枫在清华大学取得计算机科学学士和硕士学位,在加州伯克利大学取得计算机科学博士学位,曾在多个顶级国际学术会议和期刊上发表超过10篇论文。周枫加入网易后,主持有道词典开发、有道搜索平台架构、有道云笔记和密码认证系统“将军令”开发等,将有道词典打造成了份额第一的词典与翻译产品,用户量超过6亿。目前,周枫带领有道的NMT团队攻坚基于人工智能的神经网络翻译(NMT)技术,并开始进军在线教育领域。
今年网易有道十岁了。
从创办有道开始,周枫已经带着有道团队经历了中国互联网发展的两次重大变革,一次是移动互联网的热潮,另一次就是今天的人工智能热潮。
2009年,移动互联网热潮到来的时候,周枫决定,“必须要把计算机的那根线剪掉了”。有道团队的动作很快,有道词典移动版上线后,迎来了巨大的用户红利。
而对于这次人工智能热潮,周枫表示,这对于企业来说,可能是一次弯道超车的机会,但如果不小心,也许会成为掉队的开始:
“AI和移动互联网的变革将会带来共同的结果,都能够大幅提高用户体验,带动大量新技术被采纳。同时,AI将会带来终端数量的激增,就像移动互联网的终端数量比PC时代暴涨了十倍一样。
在这场AI的变革中,企业如果能抓到用户需求和技术的好的结合点,就可能开拓并占领一些新的领域。而企业本身的优势业务领域,如果没有及时调整,很容易就会被别人吃掉。”
翻译这个有道的王牌领域,是周枫决定攻占的第一块人工智能高地。
互联网的江湖永远充满着硝烟。最近几年,神经网络翻译这个新概念,把机器翻译这一潭静水搅起了风浪,加之整个社会翻译使用量的快速提升,翻译这个原本小众的业务,突然站上了风口变成了互联网巨头重点发力的对象。他们都想借助神经网络翻译这一新技术,打破翻译市场的旧秩序,从中分一杯羹。
面对谷歌、百度、科大讯飞等这些强劲的对手,周枫表示,已经为这场市场争夺站准备好了充足的弹药。
“国内的机器翻译市场,最大的两个供应商是有道和百度,其他的厂商包括海外厂商在内,普通用户的使用占比其实很小。
有道是国内最早推出机器翻译系统的互联网公司,在语言翻译市场中早早地站稳了脚跟。从移动端来看,有道在国内翻译市场的份额超过50%,在词典这个领域,有道的市占率超过了70%。
在周枫看来,要在巨头的翻译之争中继续保持领先,关键在于两点,首先是需要不断创新提升翻译质量,其次是怎么把自然交互这件事情做好。
这两点经验来自有道翻译官的用户增长,2015到2016年的一年时间内,有道翻译官的用户量提升了三倍,这其中有翻译需求增长的因素,更重要的是原因是产品交互的改变:语音翻译和拍照翻译两个场景化很强的功能,成为产品的主打功能,用户对这样的交互方式感到很兴奋。
谷歌、百度等很多企业都用了NMT,笔者曾在网上做了一个小测试:谷歌和有道能把“一百一”翻译成“one hundred and ten”,但是百度翻译是“one hundred and one”。
对于这样的结果,周枫表示,单个例句的翻译结果其实无法说明准确度,翻译和语音识别、搜索一样,需要大量数据评测。具体到“一百一”翻译不准确的原因,周枫认为,一方面是翻译总数据量的原因,另外一方面也因为垂直语料算法没经过专门处理,比如数字、日期、人名就需要专门算法处理,如果依赖总体数据库翻译就会不完全准确。
“所有自然交互系统都是很复杂的,不存在教科书式的用某一个办法一下子就把所有问题都解决了的情况,需要专门处理。这也反映出团队在这一领域中的经验和积累。”
利用这一垂直领域的算法处理经验,有道正在把神经网络机器翻译技术迅速商业化。
不少有垂直领域翻译需求的大机构找上门来,希望有道能提供精准高效和更加场景化的翻译服务,并且,他们非常乐意付钱来做这件事。有道智云正是这一翻译技术合作的入口,支持API接口,同时能够追踪用户翻译行为,了解用户翻译使用情况。
对新技术催生的新商业模式,周枫兴趣十足。“金融、医疗等垂直领域的翻译需求其实非常适合用机器翻译去解决,有道比起海外公司更了解和接近中国市场,所以这也是我们很感兴趣的一个方向。”
对整个翻译行业来说,2017年是充满变化的一年。不仅国内的竞争者相继带着神经网络的翻译技术走向市场,谷歌翻译也在3月重新回归中国大陆。翻译的准确度,自然成为衡量技术水准最直观的标准。
出身于清华和加州伯克利这两所顶级院校的计算机专业,周枫的身上有着深深的技术烙印。谈到准确度,他更喜欢用数据说话。
他用国际通用的BLEU评测把谷歌和有道的中英互译进行了的对比。BLEU(双语评估研究-Bilingual Evaluation Understudy)是一种用于评估自然语言之间机器翻译的文本质量的算法,它是与人类质量判断高度相关的指标之一,也是最受欢迎的指标之一。“机器翻译越接近专业的人文翻译越好,这是BLEU背后的核心思想。”BLEU评测输出百分数,该值表示候选文本与参考文本的相似度BLEU值越高,代表翻译准确度越高。
有道的这次评测采用了盲测方式,即评测采用的例句数据对开发者保密,更不会出现在模型的训练数据中。同时,由于语言在不同的场景下表现出很强的多样性,这次评测针对翻译引擎不同的使用场景(学习、新闻、口语、用户日志)采集不同的评测数据,分别作出评测。结果显示,在以下语料类型中,有道的翻译准确度均高于谷歌,并且最高能超出谷歌8个百分点。
2017 年 04 月 27 日评测结果
|
学 习
|
新 闻
|
口 语
|
用户日志
|
翻译方向
|
中译英
|