专栏名称: 爱范儿
关注这个时代最好的产品。
目录
相关文章推荐
新浪科技  ·  【#华为日赚2.3亿元#】10月31日,上清 ... ·  5 天前  
最黑科技  ·  三星 Galaxy Z Fold 6 ... ·  5 天前  
新浪科技  ·  【#赛力斯前三季度营收1066.27亿##赛 ... ·  6 天前  
新浪科技  ·  【#国内汽车行业利润率跌至3.4%# ... ·  6 天前  
51好读  ›  专栏  ›  爱范儿

微软这次抢先 Google,要在广东和香港大涨真爱粉

爱范儿  · 公众号  · 科技媒体  · 2016-11-03 21:12

正文

想节棱,棱胎棱。
一头雾水?请看以下图片:

想起了吗?
没错,这就是曾经传遍网络的某轮胎广告,里面生动地体现了以粤语为母语人民的“煲冬瓜”(备注:“煲冬瓜”=“普通话”,广东和香港人用于自嘲普通话不标准的说法)。当然,古天乐现在的普通话已经进步很多了,但微软还是决定要将人类从“煲冬瓜”里解救出来。同时,这也是微软要打破世界语言隔阂的其中一个举动。
电影《家有喜事 1992》
前段时间,微软亚洲研究院在其官网上宣布微软翻译(Microsoft Translator)正式发布粤语文本翻译功能, 并已集成到必应搜索和翻译、Microsoft Office、SharePoint、Cortana(微软小娜)和 Yammer。
事不宜迟,ifanr(微信号 ifanr) 现在和大家一起测试一下。
Level 1 —— 词汇题:表情包
Level 1 的测试选择了微信表情包“广东青年粤语表情”,其中包括了“核突”、“靓爆镜”、“细路”等不少有看港剧的非粤语母语者都能看懂的词语。测试词汇合计 14 个,结果如下:
(正确部分)

(无法翻译部分)

翻译测试正确率:50%。(翻不出来的,都会保持原来的写法。)
根据微软官网介绍,微软翻译基于平行语料库,且应用了机器学习技术和应用统计学,翻译“利用单词的整个语境,而非单个单词来为整句提供最佳的译文。” 因此,爱范儿(微信号 ifanr)将为原来翻译不正确的词语提供了语境,再试一次:

在本次测试中,微软翻译在语境中对“靓爆镜”、“无阴功“、“锡晒距”和“心淡”的理解都基本正确。可见语境对于提高理解还是有帮助的。
电影《英雄本色》
第一轮得分:85。
Level 2 —— 阅读题:香港娱乐新闻
其中一个粤语口语文本出现较频繁的情景是香港娱乐新闻,因此 2 级测试截取了难度中等的新闻报道测试,结果如下:

总体而言,翻译文本意思基本通畅,只是在某些口语化特别强的词语翻译上有点奇怪。例如:“精灵 BB”,语境中意思应为形容人的精神状态很好,看起来聪明,反应快。
但这个错误真不可以怪微软,因为这个用法包含了两个知识点:1. “精灵”在粤语中为不同音多义词,其一可用于指神话中出现的生物“精灵”,和普通话一样;其二为形容人看起来或做事很机智;2. 粤语中喜爱用“BB”搭配在形容词和名词后用于表达亲昵,并无实义。
从另一个角度看来,微软翻译在这个测试中,不少粤语用词的处理都比较好,例如:“查实”=“其实”、“嗲幾句”=“闲聊几句”;而“咁”、“嘅”、“喺”、“噚晚”等高频用词的翻译表现更是稳定。
第二轮得分:80。
Level 3 —— 翻译题:地道地“说”粤语
既然微软翻译的成段粤语-普通话翻译表现不错,那普通话译粤语呢?

从测试结果看来,微软翻译“说”粤语的能力基本和反向翻译的水平相符,可以将一些高频词如“是”、“的”、“还”等转化为粤语口语用法。
但翻译同一词语在不同语段里翻译效果不一的现象。例如,在测试第二段中,原本第一段保留的“爱范儿”就成了“钟意范儿”、“无人机”也成了“冇人机”。这呼应了之前提及的依赖语境翻译的说法,但同时也体现其不准确性。因此,还是建议学习粤语的用户在参考时要谨慎。
第三轮得分:70。
终极 BOSS —— 奥赛题:口语+脏话搭配测试
(说明:下文涉及不雅语言,目的仅用于测试,不建议模仿)
电影《九品芝麻官》
人在学习新语言的时候,经常学得最快记得最牢的都是脏话,有文章表明这是出于社交需求。那暂无社交需求微软翻译又是否如此呢?

测试表明,平行语料库里有包含脏话素材,因此系统可以辨认得出脏话词组,但还是无法以合符说话习惯的方式来组织句子。
第四轮得分:60。
测试结论
微软四轮综合得分:75.75 分。
从该次测试看来,微软的表现还是非常不错的。虽然现阶段可翻译的部分还局限于单个词语以及一些常用衔接词,但鉴于粤语本质上为一种口语(粤语的书面翻译对应类别为简体字与繁体字翻译),用法特别灵活,所以这样的水平已非常不错。相信日后在语料库不断丰富以及长期机器学习后,效果必定会更好。
Google 在去年 2 月的时候,已经向用户发出邀请到翻译社区参与粤语翻译的准备工作,但没想到这次居然让微软抢先一步面世。不过无论如何,推出粤语翻译功能只是时间的问题。因为根据人机通过语音交互的大趋势,粤语这个在国内有 5500 万人,国外 2000 万人使用的口语,还是非常值得去突破。
而且,微软说了,要 “永久打破语言的障碍,让人们实现随时随地的多语言沟通。” 那是要让人们可以自由地使用自己想说的语言无障碍地沟通。
课外活动:和爱范儿一起来玩
调戏微软粤语翻译攻略:
  1. 打开必应翻译;

  2. 选择“粤语(繁体中文)”(如果是粤语翻普通话,就在左边对话框选择粤语;反之亦然);

  3. 手动输入粤语的用户需要将输入法调为繁体字输入法(否则表现不稳定哦);

  4. 在左边框输入要翻译的文本,点击“翻译”,OK!

欢迎各位对粤语,或者调戏微软翻译有兴趣的朋友,加入我们的“微软粤语翻译群”,分享大家给微软出的考试题。届时,我们会精选大家分享的“微软粤语考题”到本文章上。
   
加入方式:关注 ifanr(微信号 ifanr),输入“粤语”,扫码入群一起玩。
电影《家有喜事 1992》
题图来自微软官网