近日,拿起手机,经常被霸屏的当属某红色软件,不是淘某、不是拼某某、更不是阿里某某,而是小某书。只要打开软件首页,不多会就能刷到一大批外国IP的动态,不是英语老外的个人自拍,就是举着猫猫和狗狗说来交猫税狗税的,再就是用蹩脚的机翻中文来对账、求助甚至帮忙做英语和中文作业的社交帖。
要不是自己一直有小某书的账号,并且反复确认IP,还真的怀疑这里变成了国外友人的大型认亲现场。这给我干哪来了,还是国内嘛?
一眨眼,自己这app突然变得这么international了,一时之间还真有点unbelievable捏~
为了融入原住民社区,老外们小心谨慎,操着一口生硬的中文,伴随英文双语介绍,用词之严谨、语气之诚恳,估计把小时候刚学写作文的态度都给拿出来了,生怕因为用词不当引发误会,惹到原住民的讨厌。
为了防止机翻引起误会,还贴心的加上英文原文,来表现自己的诚恳
。
后来大家发现,
表情包才是精准表达情绪的神器
。于是位于东西两个半球的两方人马,展开了表情包分享大会,蹩脚的机翻中文,和机翻英语配合着搞笑的表情包,充斥着每一个外国交友贴的下方评论区。
在看乐子和找乐子的同时,我也发现了一个问题。
虽然评论区绞尽脑汁用英文回复和用翻译器自动翻译中文的语句很搞笑,但是也会让人摸不着头脑。像我为了能更清楚地了解问题都是直接看英文原文,但是只要点开右上角自动翻译,看到的中文和原意总是有些出入。
那么为什么机翻总是词不达意呢?有没有人会好奇机翻的原理是什么?
为什么基础的翻译和语气词AI都可以做到,但是稍难一些的词汇,就容易语序错乱,让人二丈摸不到头脑呢?
依据语言规则对文本进行分析,再借助计算机程序进行翻译。它的运作需要三个连续的阶段来实现:
分析,转换和生成
,根据这三个阶段的复杂性分为三级。第一级,
直接翻译
:简单词语的直给;
直接翻译
第二级,
转换翻译
:翻译过程需要参考原文的词汇、语法和语义的信息,因为信息来源过于宽泛,像有的词汇有多种意思,比如cell,有细胞、单元和监狱的意思,笔者在读文献的时候,经常能看到翻译器把单胞翻译成细胞的。而且语法规则很多并且之间存在矛盾和冲突,所以转换翻译非常复杂且容易出错(别说机器了,有的语法人都读不懂,计算机真的会崩溃好嘛!!!)。
第三级,目前还只是个设想,
国际语翻译
,大概就是凭借通用的完全不依赖语言的形式,实现对语言的解码,难度相当于让计算机读懂表情包(>_<),这样是不是理解到底有多不切实际了吗?
通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或者是语言模式),然后使用这种模型进行翻译,
选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。
要想实现这种方法,我们需要拥有大量的训练数据,其中完全相同的文本要被翻译成至少两种语言,这种双重翻译的文本被称为
平行语料库
。18世纪的时候,科学家在罗塞塔石碑上发现了用希腊语、象形文字、古埃及文字和当时通俗体文字写的古埃及国王托勒密五世登基的诏书,根据不同语言版本内容的对照,科学家得以解读失传已久的埃及象形文字的意义和结构,这就是计算机统计法翻译的前身。
我试着解释一下,如果读者有更好的看法,也可以直接在下面写出来,统计翻译系统的原理是用概率的思维进行思考,
他不是试图生成一个精确的翻译,而是生成成千上万种可能的翻译,然后按照最可能正确的来给这些翻译排名,通过与训练数据的相似性,来判断到底有多正确。
首先,先把我们的句子分成简单的几块,让每一块都能够轻松地翻译,那么根据是以词为依据,还是短语为依据,
SMT被分为了基于词的SMT和基于短语的SMT两种