专栏名称: AI数据派
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
目录
相关文章推荐
Python爱好者社区  ·  梁文锋和杨植麟,论文撞车了!! ·  3 天前  
Python中文社区  ·  三年稳赚40倍!用布林带挤压策略跑赢特斯拉 ·  3 天前  
Python开发者  ·  成人玩偶 + ... ·  5 天前  
Python爱好者社区  ·  DeepSeek彻底爆了! ·  5 天前  
Python爱好者社区  ·  DeepSeek 被放弃了,阿里牛逼! ·  4 天前  
51好读  ›  专栏  ›  AI数据派

亲历谷歌翻译,论机器翻译之浅薄。

AI数据派  · 公众号  ·  · 2018-04-12 07:30

正文

授权自AI科技大本营(ID: rgznai100)

翻译: shawn

本文共 1W+字 ,建议阅读 10+分钟
美国学者侯世达以自己亲身体验Google翻译的经历指出,机器翻译目前没有思想,很难替代人类。


[ 导读 ] 尽管机器翻译明显玩不转备受期待的长篇内容,但我们得承认,在快速获知单词含义层面,它确实为人们提供了一定便利。可奇怪的是,无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛,这给了人们一种快要成了的错觉。


有人要揭开盲目乐观的面纱,因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体验 Google 翻译的经历指出,翻译软件目前是只知其形,还不解其意。进一步说,机器翻译要想替代人类,不应只是单词解码,更重要的是要拥有人类那样对言语意义的理解力。要解决第二个问题,就需要让机器复制人类智能,但技术研究者却回避着这一难题。


以下为翻译内容:


周日,我朋友 Frank 带了一位丹麦客人来参加我们每周举办的萨尔萨舞会。Frank 的母亲是丹麦人,他小时候在丹麦生活过,能说一口流利的丹麦语。而Frank 的丹麦朋友也能讲英语,按北欧人的标准,还是很流利的。然而,晚上闲聊时我却意外发现,这一对好友却习惯于借助 Google 翻译才能互通邮件:Frank 发邮件会先用英语写好内容,然后用 Google 翻译将其转换成丹麦文;与之相对,他朋友发邮件则会用丹麦语写好内容,然后用 Google 翻译将丹麦文转换成英文。


你说这事怪不怪?他们明明都能听懂对方说的话,但为什么偏偏要用 Google 翻译,这不多此一举吗?


以我跟机器翻译软件打交道的经验,它们的翻译效果我一直持高度怀疑态度,但这两人却不以为然。事实上,很多很有头脑的人都是翻译软件的拥趸,极少去苛责机器翻译的浅薄,这让我很是不解。


作为一个语言爱好者、一个富有激情的译者以及一个认知科学家,我一生都折服于人类头脑的精妙,数十年来一直致力于翻译工作的机器化。这一课题首次令我产生兴趣是在70年代中期,当时,我读到了一封 1947 年的信,是机器翻译的早期拥护者 Warren Weaver 写给 Norbert Wiener 的。信中,Weaver 提出了一个相当有名的观点——翻译即解码,他的原话是这样的:


每当看到俄语文章时,我会这样说,“这篇内容事实上就是用英文写的,只不过有人用一些奇怪的符号对它进行了加密。接下来,我只需将其进行解码即可。”


不过,数年之后,他又抛出了一个截然不同的观点:


“明眼人都清楚,机器成不了普希金,机器翻译永远都无法传达出语言本身的优雅与格调。”


我发现,Weaver 后来的这个观点更让我感同身受,特别是在我投入整整一年时间将普希金的长篇诗体小说《叶普根尼-奥涅金》翻译成了英文,其中的艰辛就是如何把读出来的俄语内容彻底地重新创作为英文的诗体小说。


Weaver 最开始的观点,只是揭示了语言被过度简化后的一面。即便如此,他在 1947 年“翻译即解码”的观点,早已成为驱动机器翻译发展的重要信条。


自那时起,“翻译引擎”不断改进,特别是最近“深度神经网络”在机器翻译中所取得的成果,让一些评论者们又开始叫嚣人类译者濒临消亡的命运。比如,Gideon Lewis-Kraus 在《纽约时报》发表的那篇《The Great AI Awakening》,以及 Lane Greene 在《经济学人》发表的那篇《Machine Translation: Beyond Babel》。根据他们的说法,人类译者将在几年内沦落为翻译质量把控者与错字校对的角色,而不再是文字的生产者。


要是翻译领域果真发展到这一地步,那我的精神生活必将遭受重创。虽说我能完全理解他们要尝试让机器翻译发挥更大价值的魅力所在,但我一点也不想看到人类译者让毫无感情的机器所取代。一想到这些,我就感到惶恐和反感。


在我看来,翻译是一门极其讲究的艺术,它要求译者将丰富的生活经验以及创造性的想象力用在再创作过程。如果机器翻译的勉强还算“不错”的语言,使得人类译者沦为了过时“老古董”,这必将严重打击我对人类智慧的尊崇,留下无尽的困惑与悲伤。


每每读到人们宣称某项新技术又要淘汰人类译者,我就想要亲自一探究竟,部分原因是害怕关于机器翻译的噩梦最后成真,更多的是出于证实该文章有夸大其词之嫌,以疏解我内心的焦虑,因为我坚信戳穿言过其实的 AI 谎言非常重要。


因此,在我读到 Google Brain 用深度学习增强了旧的人工神经网络理论,并以这种技术实现出革命性的机器翻译效果之后,我决定亲自会一会这款最新的 Google 翻译,看它是否真如国际象棋的“深蓝”与围棋界的 AlphaGo 一般,会成为机器翻译领域的颠覆者?


众所周知,旧版的 Google 翻译可以处理很多种语言,但深度学习版的新 Google 翻译最初只支持 9 种语言(译注:目前是 96 种)。于是,我把探讨的语种限定在四种:英语、法语、德语和中文。


在展示我的发现之前,我要先指出一点——“(deep)深度”一词作为多义词,在这里有滥用之嫌。当人们听说 Google 收购了一家用“深度学习”增强“深度神经网络”来做产品的公司(公司名还是 DeepMind)时,他们下意识会把“深度(deep)”理解为“深奥(profound)”,继而推导出“强大”、“见解深刻”、“深谋远虑”的意思。但是,“深度”在这里的真实含义,仅仅是说这些神经网络的层数比过去只有 2 到 3 层的旧网络多一些而已(比如 12 层)。不过,多出来的这几层是否意味着神经网络所完成的任务一定很“深奥”?那可不见得,那只是语言上的使用技巧。


对于 Google 翻译,我一直怀有较深的戒心,毕竟媒体对其炒作太过了。但是讨厌归讨厌,Google 翻译的一些能力还是让我深感惊奇。全球每一个人都可以免费使用这项服务,它可以在大约 100 种语言之间任意翻译。这一点确实令人类自感羞愧。如果我敢自称“多语言者”,那 Google 翻译就是当之无愧的“百语者”,毕竟我会的语言只有 3 种左右,其中一些语言还是略懂一点点,所以自称“多语言者”是比较心虚的,但 Google 翻译的一百种语言可真是货真价实。


事实上,我只需把 A 语言的文本复制粘贴到 Google 翻译的输入框内,它瞬间就能把整页内容翻译成 B 语言。况且,Google 翻译还可以时刻不停地为全球用户提供多种语言翻译服务。



Google 翻译的实用价值毋庸置疑,总体来说它还是个不错的产品。但它所用的方法却存在很大的缺陷,用一个词来描述就是——理解。毕竟,机器翻译的焦点从来都不是理解语言;相反,该领域的研究策略一直都是避开内容的理解及其含义,亦即“解码”。那么,想要翻译好文章,没有对内容的理解果真可行吗?人或机器的高质量翻译,真能离开语言的含义而独自完成吗?


为了探讨这里问题,我亲自用 Google 翻译做了一些实验,接下来会详细解释。


英-法互翻


一上来,我用的是短句,它的意思简单明了,很容易理解:


In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.


(意为:在他们家里,所有的东西都成双成对。他和她有着各自的汽车、毛巾与收藏室。)


这句话的翻译看上去很简单,不过在法语和其他罗曼语中,Google 翻译对物主代词“his(他的)”或“her(她的)”的处理并不反映性别的变化,因为它处理的只是物主代词后面的名词,给出来的结果是这样的:


Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.


果不其然,Google 翻译落入了我的圈套,它根本无法像人类理解语言:即分清这句话描述的是一对夫妻,知道句子强调的是丈夫有的每样东西,妻子都有与之相配的一个。相反,深度学习引擎使用同一个词“sa”来指代“his car(他的车)”与“her car(她的车)”,令读者无从判断汽车所有者的性别。同样,它还使用无性的复数形式“ses”来指代“his towels(他的毛巾)” 和 “her towels(她的毛巾)”。而对最后“his library and hers(他和她的收藏室)”的翻译,名词性物主代词“hers”的“s”彻底把 Google 翻译迷惑了,它以为“s”代表的是复数形式 (“les siennes”)。到最后,Google 翻译彻底误解了这句话所要表达的意思。


为了传达原句的本来意图,我只好亲自将这些短句翻译成法语:


Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.


其中,“sa voiture à elle”表示的是“her car”,“sa voiture à lui”表示的则是“his car”。表达清楚后,让 Google 翻译将我的法语准确译回英语,我以为是水到渠成的事了。但我又一次想多了,它错得更是离谱:


At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.


这说的都是什么?尽管我在句中尽可能明显地突出了所有者的性别信息,Google 翻译还是一个睁眼瞎,完全不知道这句话所要传达的最关键信息,而是简单将所有人物主代词都转换成阳性的"his"。为什么会是这样?


我们人类能理解夫妇、房子、个人财产、自尊心、竞争、嫉妒、隐私等各种各样抽象的概念,以及其它更为复杂的情形所形成的癖好,比如一对夫妇要把各自的毛巾绣上“his(他)”与“her(她)”。


Google 翻译却无法理解这样的情境,或者说,它无法理解任何语境信息。它所熟悉的只是由字母所构成的单词、由单词所构成的字符串。Google 翻译所关心的的只是如何对文本碎片化快速处理,而非文本背后的思考、想象、回忆或者理解。它甚至不想知道单词背后所代表的事物是什么。原则上,计算机程序可以理解语言的含义,可以拥有想法、记忆和经验,并且可以使用它们,但这不是 Google 翻译开发的初衷。它的开发者们甚至都没有这样的雄心。


看到 Google 翻译这些令人啼笑皆非的语句,我不禁长舒一口气——机器翻译终究还是无法取代人类译者。但我认为,我还是应当更加细致地测试一番 Google 翻译。毕竟,孤证不立,一燕难成夏(One swallow does not thirst quench)。


那么,对于这句“One swallow does not thirst quench”——我从谚语(“One swallow does not a summer make”,意为孤燕不成夏)中新编出来的话,Google 翻译把它会翻成什么样的法语语句呢?试过之后,Google 翻译输出给我这么一个结果:“Une hirondelle n’aspire pas la soif”。这个翻译倒也符合法语语法,但却着实让人费解。


首先,它用一种燕子(“une hirondelle”)来指代燕科(swallow)所包含的 74 种鸟,并说这只鸟没有在吸啜(“n’aspire pas”),而鸟吸啜的对象竟然是口渴(“la soif”)。显而易见,Google 翻译完全没有理解我的意思,它只是将句子重新编码成一堆乱七八糟的符号。而这句话“Il sortait simplement avec un tas de taureau.”,它竟翻译成“He just went out with a pile of bulls(他刚跟一大堆公牛出去了).” 再将其翻译回法语便成了“Il vient de sortir avec un tas de taureaux”。请原谅我这糟糕的法语,更准确地说,是 Google 翻译的伪法语。


英-德互翻


说完法语,我们再来看德语。最近,我迷上了奥地利数学家 Karl Sigmund 的书《Sie nannten sich der Wiener Kreis》,英文名是《They Called Themselves the Vienna Circle(他们自称是维也纳学派)》。这本书写的是上世纪 20 年代到 30 年代的一群维也纳理想主义知识分子,他们对后世的哲学和科学有着重大的影响。


我就用 Sigmund 在这本书中所写的一小段文字来测试 Google 翻译,看它能翻译出什么样的英语。我们一一来看,首先是 Sigmund 所写的德语原文,然后是我自己的翻译,最后是 Google 翻译的结果。(顺便说一下,我让两位母语是德语的人检查过我自己的翻译,其中包括 Karl Sigmund 本人,你基本可以认定我的翻译是准确的。)


Sigmund:


Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.


侯世达翻译:


After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.


(意为:战败后,教授们的政治倾向仍以泛德意志主义为主,他们认为自己有责任保护高等研究所免遭“不受欢迎的人”侵扰。其中最有可能遭受敌视的,就是那些尚未有权利教大学课程的年轻学者。至于女性学者,则完全没有她们的立身之处,没有比这更清楚的了。)


Google 翻译:


After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.


Google 翻译结果中的词汇倒也都是英文单词,纵然如此,其中有几个单词还是很不恰当地用成首字母大写的形式,不知什么原因。这些词开始还能组成一句话,但越往后,你就越不知所云,翻译效果惨不忍睹。


我们先看引号中的“the ‘odd.”,它在德语原文中所对应的是“die ‘Ungeraden”,意指“在政治上不受欢迎的人”。不过,Google 翻译在这里将其译为“odd”是有原因的:统计。也就是说,在 Google 翻译所用的庞大双语数据库内,“ungerade”几乎总是被译成“odd”。


虽说翻译引擎自己并不懂得为何要如此转换,但我能告诉你原因。这是因为 “ungerade” 在使用中几乎总是“奇数(无法被2整除的数)”的意思,尽管它在字面上的意思是“不直的”或“不平的”。相反,我用“undesirables”一词来译“Ungeraden”就跟单词的统计数据毫无关系了,纯粹是基于我对上下文的理解——它的含义深藏于字里行间,任何德语词典的“ungerade”释义都文不对题。


然后说说另一个德语单词“Habilitation”,它指的是一种大学职位,类似于终身教授。在英语中,与“Habilitation” 同源的词汇尽管存在,但却极为罕见,读者肯定不会把它和终身教授联系到一块。这就是为什么我要简单解释一下词中这层含义,而非直接去用一个生僻词,要不普通英语读者读起来肯定一头雾水。Google 翻译当然是做不到这一点的,它压根就没有读者所具有的知识模型。


原文的最后两句很好地证明了“理解”在翻译中的重要性。“Wissenschaftler”这个由 15 个字母组成的单词指的是“科学家”或“学者”(我认为是后者,因为按原文语境它指的是知识分子阶层。Google 翻译没有理解出这层微妙的含义)。最后一句中的“Wissenschaftlerinnen”是“Wissenschaftlerin”的复数形式,而且是一个阴性德语名词。“Wissenschaftler”在语法上是阳性名词,指的是男性学者,“Wissenschaftlerinnen”是阴性名词,只能指女性学者。我翻的时候用“female scholar”来传达这层含义。但是,Google 翻译并不知道“Wissenschaftlerin”中的后缀“-in”是最后一句中需要仔细注意的地方。它不知道这个词指的只是男性学者,因此它用的是“scientist”这个词,丢失了原句要点。和之前翻译法语一样,Google 翻译完全不知道这个德语句子的唯一目的是突出男性和女性对比。


除了这个重大错误,最后一句其他部分的翻译简直是灾难。先看前一半。“scientists did not question anyway”真的是“Wissenschaftlerinnen kamen sowieso nicht in frage”的正确翻译吗?译文和原文的含义完全是牛头不对马嘴,译文中的单词只是按照德语单词随意生成的,这能称得上是“翻译”吗?


最后一句后半部分的翻译也同样很糟糕。最后六个德语单词字面上的含义是“over little was one more united”,更流畅地说是“there was little about which people were more in agreement”(这一点几乎没什么异议),但是 Google 翻译将这个明显的含义翻译为“There were few of them(几乎什么都没有)”。读者看到一定会疑惑地问“Few of what?(什么没有)”,但是对机器翻译这个机械听者而言,这个问题没有意义。Google  翻译没有想象能力,因此它无法回答这种看起来很简单的问题。它在翻译时并不会进行大量或些许想象。它只是随意组合单词,对单词所代表的含义完全没有概念。


ELIZA 效应


对于具备人生经验和理解能力,并能熟练使用文字不同含义的人来说,他还是很难意识到 Google 翻译生成的译文有多么空洞。人们想当然认为,可以如此流畅处理文字的软件肯定理解个中含义。人们对人工智能项目产生的经典幻觉被称为是“ELIZA 效应”。上世纪 60 年代,一个名叫 ELIZA 的项目可以让用户相信它可以理解英语,实际上它根本不知道自己在说什么。ELIZA 模拟一名心理治疗医师,与它“聊天”的许多用户都误以为 ELIZA 可以深刻地理解他们的内心感受。


数十年来,ELIZA 效应骗过了很多见多识广的人,甚至包括一些人工智能研究人员。为了让读者可以避开这个陷阱,我将引用上文中的几个句子来说明:“Google 翻译不理解”,“Google 翻译没有意识到”、“Google 翻译没有最起码的想法”。这些句子看起来似乎是自相矛盾的,一方面说 Google 翻译缺乏理解能力,另一方面又暗示 Google 翻译至少有时可以理解单个单词、短语或句子的含义。事实并非如此,Google 翻译的设计就是为了回避或规避理解语言的。


在我看来,“翻译”一词散发着神秘且动人的气息。它是一种人文色彩浓厚的艺术形式,要求译者要优雅地用语言 B 将语言 A 中明确的思想表达出来,这个过渡过程不仅要确保明确性,而且还要将原作者写作风格、技巧和特质传达出来。在翻译之前,我首先会仔细地阅读原文,将原文中的思想尽可能清晰地印在我的脑中,一遍又一遍地咀嚼。我咀嚼的不是原文文字,而是文中那些激发各种相关思想的思想,通过这样做,我可以在我的脑中构想出丰富的相关场景。不用说,大部分构想过程是潜意识的。只有当我的脑中构建的场景足够丰富时,我才会试着用另一种语言将它们表达出来——“将它们提取出来”。在翻译时,我试着以我认为的自然方式用语言 B 表达我脑中的场景,这些场景构建的就是原文的含义。


简而言之,我不是将语言 A 的单词和短语直接译为语言 B 的单词和短语。在翻译时,我会下意识地在脑中构出图像、画面和想法,挖掘我以往(读过、在电影中看过或从朋友口中听过的)的经验。只有当非言语的、意象式的、经验性的思维构想在我脑中形成时——只有当象征原文含义的虚无缥缈的气泡在我脑中漂浮时——我才会用目标语言组织单词和短语,然后再一遍又一遍进行修改。这个以文本含义为媒介的翻译过程虽然听起来相当缓慢(与 Google 翻译两三秒翻译一页文本的速度比起来确实慢),但它正是所有严肃的人类译者在翻译时要完成的一个过程。这种翻译才是我听到“deep mind”(深度思维)这样的词组时所理解的翻译。


中-英互翻


接下来我检验了 Google 翻译的中文翻译。相比法语和德语这两种欧洲语言,中文对深度学习软件的挑战更大得多。我从中国剧作家和翻译家杨绛(最近以 104 岁的高龄逝世)的回忆录《我们仨》(We Three)中节选一部分作为测试材料。杨绛的这本书讲述的是她和她的丈夫钱钟书(小说家和翻译家)以及女儿的生活。这本书虽然不是特别晦涩,但是它的文字相当考究且生动。我节选了一小段,让 Google 进行翻译。以下是Google 翻译给出的结果和我本人的翻译(经过中文母语者的检查):


杨绛:


锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。 他仍兼管研究生。

毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。

事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说:

他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。


侯世达翻译:


After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

“He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”


Google 翻译:


After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.


下面我将指出几个奇怪的地方。


  • 首先,虽然“锺书”这个名字在原文中出现了三次,但是 Google 翻译却没有将它表达为人名。在第一处,Google 翻译使用了人称代词“he”,第二处,Google 翻译将“锺书”翻为“the book”;第三处,Google 翻译将“锺书”翻为“the book of fear in the book”。看看这是什么翻译!


  • 第二个奇怪的地方在第一段中,文中说的是锺书兼管研究生,而 Google 翻译却说他本人是研究生。


  • 第三个奇怪的地方在“毛选翻译委员会”(Mao Tse Translation Committee)这个短语上,Google 翻译遗漏了中国主席毛泽东的名字中的“泽”字。








请到「今天看啥」查看全文