专栏名称: 环球科学
《科学美国人》独家授权中文版—《环球科学》杂志—www.huanqiukexue.com
目录
51好读  ›  专栏  ›  环球科学

机器翻译:生于冷战,却为人类重建巴别塔 | 总编专栏

环球科学  · 公众号  · 科学  · 2017-06-17 15:37

正文

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第七回。在这一回中,陈宗周先生将带领我们回顾机器翻译半个多世纪的发展史。这个在诞生后不久一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒?


陈宗周是《环球科学》杂志社社长,《电脑报》创始人。


2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公司的产品。


2016年11月的一天,东京大学教授、人机交互专家历本純一(Jun Rekimoto),在社交网络上发现一个消息:谷歌翻译有了巨大提升。他亲自访问了谷歌翻译的页面开始体验,他被震惊了。


他对比了两位日本翻译家所翻译的《了不起的盖茨比》中的几句话与谷歌翻译出的结果。他认为,谷歌的日语翻译非常流畅,比起翻译家的作品,对他而言,更加易懂。


他随后又在谷歌翻译上输入美国作家海明威作品的日文版,翻译为英文,结果发现机器翻译与海明威英文原著有着惊人的相似度。


上面的两个场景都和机器翻译有关,前者叫语音翻译,后者叫文本翻译,而这两种翻译,核心问题都在于自然语言理解。



机器翻译的早期发展


机器翻译(Mchine Translation,MT),又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译是AI中的明星技术。因为它是实现不同民族不同语言人群无障碍交流的最有力助手。圆满解决机器翻译难题,重建巴别塔的梦想也就实现了。


正像计算机是被战争催生出一样,机器翻译这个想法的出现,也与军事有关。1946 年,第一台计算机ENIAC诞生后不久,洛克菲勒基金会的美国科学家瓦伦·威弗(Warren Weaver)等人在思考计算机未来应用时,想到了第二次世界大战期间,图灵用机器破译密码取得的巨大成功。他们认为,语言翻译与破译密码相似,都是把一种符号转换成另一种符号,同样可以用机器来完成。沿着这样的思路,1949年,威弗发表《翻译备忘录》,正式提出机器翻译的思想。


机器翻译的先驱——瓦伦·威弗


机器翻译的想法提出后立即受到重视,美苏两国当时正值冷战期间,俄文情报资料的翻译,需求量很大。1954年,美国乔治城大学和IBM共建的实验室研制出第一台机器翻译演示系统。这个现在看来比玩具好不了多少的系统,可以将俄语翻成英文。系统容纳250个单词,遵循六条语法规则,只可以翻译49个仔细挑选的句子。但是,这仍然是个了不起的成就,已经足以点燃人们的热情。记者这样兴奋地报道:今天,电子大脑首次将俄语译成英语。美国国防机构和计算机科学家乐观期望,机器翻译将在五年之内实现。


机器翻译也吸引了苏联、日本和欧洲国家的研究兴趣。一时间,各国政府纷纷拨款,全球机器翻译热潮兴起。


好景不长,机器翻译研究进展缓慢,开始受到广泛质疑。1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC),进行为期两年的调研和测试。1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,认为十年研究未能完成预期目标,并在近期或可以预见的未来,也没有开发出实用的机器翻译系统的希望,建议停止经费支持。报告给了正在蓬勃发展的机器翻译当头一棒,它很快转入低潮。


为什么机器翻译研究进展缓慢,这是因为自然语言理解当时很难取得实质性突破。自然语言理解(Natural Language Understanding,NLU),是解决对语音信息和文本信息的理解问题的重要AI学科。通俗说,是要解决要听得懂和看得懂这两个问题。语音翻译和文本翻译虽然也有各自关注的技术难点,但共同面对的核心难题都是自然语言理解。这是一个很高、甚至是终极的目标,所以许多研究者喜欢用另外一个词,即自然语言处理(Natural Language Processing,NLP)来描述这一学科,强调过程而不是目的。


人类社会在漫漫长路中形成的语言,是一个非常复杂的系统。最初的研究者,对问题的复杂性缺乏深入了解。从方法上,他们希望迅速找到语言规则,就像找到密码的编码规则就很容易破译密码一样,如果找到语言规则,就能够理解自然语言,机器翻译难题就解决了。


但是,语言的规则实在太复杂了。就以文法规则来说吧,有人计算过,如果仅仅覆盖20%的真实语句,文法规则至少需要数万条。而如果要覆盖50%的真实语句,以后每增加一个新句子,就要新增数条文法规则。由于语言是发展和流动的,真实句子实际上变化无穷,文法规则难以穷尽。


再从计算复杂度考虑,图灵奖得主高德納(Donald Ervin Knuth)从理论上指出了文法与计算复杂度的关系。如果上下文无关,计算复杂度是语句长度(即有多少单词)的二次方;而如果上下文有关,计算复杂度是语句长度的六次方。单单分析一个有二三十个单词的句子的文法,就是用今天的高性能计算机,也要计算几分钟。所以,要完全从规则上理解上下文有关联性的一篇文章或者一段长语音的文法,复杂度就会使计算耗时难以想象。在上世纪70年代,即使是拥有大型计算机的IBM,也做不到用文法规则的方法来分析一些真实语句。


当然,上述分析是在非限制性的语言应用环境中得出的结论。在实际应用中,语言的应用都是限制性的,比如不同文化、不同学科、不同情景下应用语言都有各自的特征。在限制性语言应用环境中,问题要简化很多。于是,基于语言规则的机器翻译仍然在努力前行,也取得了一定的成果。而另一种方法,即基于统计的机器翻译开始崭露头角。



统计翻译的登基之路


我们在第五回提到上世纪70年代IBM沃森实验室的贾里尼克,他提出了统计语音识别的理论框架,简洁地用两个隐马尔可夫模型——声学模型和语言模型来清晰概括语音识别。这个框架对语音和语言处理都有着深远影响。从此,自然语言处理开始走上统计方法之路。


对基于语言规则的机器翻译系统来说,需要大量特定语言的语言学家编撰相应语言的大型词典,制定大量的语法、句法、语义学有关的规则。词典和语法规则库构成翻译知识库,机器根据这些词典和规则进行翻译。这与人通过查词典和语法书理解语言并进行翻译十分类似。其中,规则很繁复,对于由数十万词汇构成的词库,翻译系统包含的语法规则可能高达数万条。


而统计翻译则避开语言规则。统计语言学开创人贾里尼克有一句名言:我每开除一个语言学家,语音识别的正确率就提高1%。这句极端的话,说明他对语言规则的无视。


统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),然后根据匹配概率,来评判和选择翻译结果。


统计翻译的另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。


统计翻译避开繁杂的语法规则,显而易见更为简单,而且是威弗提出《翻译备忘录》时的原始想法。但是,统计翻译需要大规模的语料库,这在当时并不容易做到。所以,自然语言处理从基于规则转向基于统计并没有那么简单,而是经历了很长的过程。基于规则的自然语言处理,后来在采用新技术以后,仍然在发挥作用。不过,随着互联网的普及,大规模语料库逐步建成,统计翻译最终成为主角。


机器翻译行业最早的开发者和软件提供商Systran,就是见证这一过程的活样板。Systran是老一代基于规则的机器翻译技术的商业化代表,于1968由彼得·托马(Peter Toma)创办。托马是一位科学家,当时在前面提到的美国乔治城大学机器翻译项目组工作,之后他以大学机器翻译研发小组为班底,创办Systran机器翻译公司。在ALPAC报告后,政府资助经费锐减,Systran公司却生存下来,是少数几个活下来的机器翻译公司之一。1986年,Systran被卖给一个法国家族,后来在法国上市;2014年,又卖给一家韩国公司。







请到「今天看啥」查看全文