“为什么关注文字识别和处理?是因为我们发现手机摄像头能力提升之后,文字能做更多的事情”。7月4日,在有道开放日活动中,有道总裁周枫对到访的媒体说。
有道发现的,其实不光是摄像头能力的提升,更重要的或许是深度学习。在三个月前,有道正式将深度学习应用于机器翻译,上线了神经网络翻译模型。与此同时,深度学习也应用到了大多数有道产品中,如有道词典、翻译官、有道云笔记等。
此次开放日上,有道总结了三个月来神经网络翻译取得的进展,同时还宣布正式上线 OCR 技术和有道智云平台。
神经网络翻译效果如何?
网易有道在三个月前正式上线了其基于深度学习的神经网络翻译模型(NMT),雷锋网就此曾专访过有道首席科学家段亦涛。在本次活动中,段亦涛再次提起利用深度学习完成机器翻译任务的优势,在他看来,深度学习有三个特点,能够让它在翻译任务中,得到比较好的效果:
神经元能够完成一些比较初级的操作,模型通过对神经元奇妙的组织,使它能够配合工作,完成更复杂的任务,和动物的神经网络工作方式比较类似。
一个词对应到翻译里面是一个高位向量。这样做的好处在于比较强的刻画力——刻画信息之间的关系。比如同义词或者反义词,传统用编码方式不太容易表达,但是如果在一个向量空间来表达,通过向量之间的位置,就能比较好的来反映它们之间的关系。
翻译模型里有很多参数,这些参数为了共同的目标进行优化,和传统的模型不一样,传统的机器学习会有各种模块,各个模块都是为自己的目标来调整优化的,人为拼凑成一个机器类的东西,能完成功能,但是比较生硬。
对于神经网络翻译模型的评估,有道采用了机器翻译界通用的 BLEU(双语评估研究-Bilingual Evaluation Understudy)评估指标,得分越高,说明翻译结果越接近目标翻译。段亦涛以有道和国际同类产品的中英互译为例,进行了对比。
*有道神经网络翻译(中英)BLEU值测评结果
除中英互译之外,段亦涛还介绍,有道近日也上线了日韩语神经网络翻译,从内部测试的 BLEU 数值上来看,中日、中韩翻译准确度也都高于国内和国际同类产品。
雷锋网了解到,采用深度学习进行机器翻译是目前已成为业界的一种普遍做法,百度、谷歌、搜狗等厂商也在进行,但也有公司最近提出了一些新的翻译模型,比如 Facebook 提出了完全基于 CNN (卷积神经网络)的翻译模型。
OCR 技术如何识别并翻译图片中的文字?
此外,有道正式对外宣布了其 OCR 技术的上线。所谓的 OCR 就是在一张图片里识别文字区域,再把区域里面的文字提取出来并翻译。
OCR 的工作原理分为两个步骤,第一步先识别文字区域,通过两个通道进行,分别识别区域位置和区域的大小;第二步是识别区域内的文字,通过多层网络提取数据后,再用 2N 结构进行处理,在最后一层做识别。