专栏名称: 本地化世界
本地化信息传播与交流!
目录
相关文章推荐
BetterRead  ·  瞧,这个人讲信仰 ·  2 天前  
康石石  ·  爱丁堡录取率高达70%!艺术生有福了! ·  2 天前  
51好读  ›  专栏  ›  本地化世界

旋转语言大数据的魔方—— 评搜狗战略投资UTH国际

本地化世界  · 公众号  ·  · 2017-08-16 19:58

正文

2017 8 15 日,北京搜狗信息服务有限公司与上海佑译信息科技有限公司( UTH 国际)的战略投资签约仪式在上海举行。搜狗公司搜索事业部总经理许静芳女士与 UTH 国际董事长兼首席执行官杜金林先生正式签约,共同宣布 UTH 国际完成 B 4200 万元人民币融资。本次投资由北京搜狗信息服务有限公司战略领投,杭州海沣投资管理有限公司等机构跟投。

这则新闻引起了我很大关注。我热烈祝贺 UTH 国际和搜狗之间的战略投资,它将加强人工智能与跨语言大数据的融合应用,扩展跨语言大数据的应用场景,促进跨语言跨文化交流。抛开行业职业因素,我积极关注这则新闻的另一个重要原因是个人原因。杜金林先生是我的老同事和老朋友,我们 10 年前机缘巧合走到一起, 10 年后还在彼此密切交流。多年来,他对事业的无限热情、敏锐前瞻、高效执行、锐意进取的职业态度深深影响着我,成为激励我不断学习的榜样。

2007 3 月的一个普通夜晚,杜总约我在 MSN 上在线聊天(那时还没有出现微信)。我此前不认识杜总,本地化行业的前辈告诉我,杜总是国内本地化行业的资深人士, 20 世纪 90 年代初期进入本地化外企工作,其中包括著名的 ALPNET (现在的 SDL )、 Lionbridge 等企业,并在多家公司担任高级管理岗位。那晚的聊天改变了我的职业发展轨迹,我决定从北京莱博智公司( Lionbridge )辞职, 2 个月后与杜总等开始成立昱达公司,走上创业之路。

经历了创业的艰辛,才能体会到人生的色彩。 5 年后的昱达公司已经走上了健康发展的道路。后来杜总加入华为全球化部门,担任本地化高级顾问。 2012 年的春天,机器翻译行业应用的曙光初放,杜总跟我说他要到上海二次创业,我知道杜总志向远大,昱达无法实现他的梦想,我鼓励他继续追随梦想。我选择继续坚守昱达,并开始投身中国高校的本地化人才教育工作,这也是我多年的兴趣所在。

此后,我每次到上海出差,只要有时间,我都到 UTH 国际公司参观,与杜总和他的同事们交流。每次都能看到 UTH 国际的快速发展,特别在跨语言大数据方向上的持续努力和取得的一系列成就, UTH 国际在跨语言大数据领域的深耕细作,从成立之初就收到资本的青睐,从初期的天使投资,到鼎晖资本、老板实业集团的多轮投资,以及本次搜狗的战略投资,我感到欢欣鼓舞。我也感受到杜总从创业初期的激情澎湃,转为现在的淡定从容,这 5 年改变的不仅是岁月,还有他对人生事业的思考。

2012 年到 2017 年,是人工智能和大数据领域快速发展的 5 年。有人在时代大潮冲击下茫然失措,找不到前进的方向。有人拥抱变化,激流勇进,成为时代弄潮儿,笑傲江湖。

互联网、大数据、全球化、走出去是当前全球和中国发展的社会现实。随着各国经济、贸易、文化、科技等领域的深度交流,跨语言交流成为阻碍人们自由交流的障碍。发展一带一路构想,实现政策沟通、设施联通、贸易畅通、资金融通、民心相通,关键和难点在于民心相通,阻碍民心相同的是不同国家和民族的语言,语言是文化和文明的载体。

在突破跨语言交流的各种努力中,互联网 + 跨语言大数据已经实现了突破,并且还将在快速发展中,显示跨语言大数据的巨大力量。马云开始提出当前已经从信息技术时代进入数据时代,谁拥有数据,谁就拥有未来。上周在成都召开的语言服务行业大会上,多位行业专家提出人工智能语言服务技术的发展速度,影响着一带一路构想的实施广度。

在跨语言人工智能领域,特别是自然语言处理领域,机器翻译是此领域最活跃的分支,被称为自然语言处理皇冠上的明珠,其对人类语言、文化、文明交流的巨大作用,引来科技界、学术界、投资界、政府的积极投入。 2016 9 月,谷歌公司发布了神经机器翻译系统,以良好的译文质量、快速的翻译能力,成为当今机器翻译研究和应用领域的新方向。国内外此领域的领导企业都在积极推动机器翻译的发展,搜狗、百度、阿里、腾讯、讯飞、微软、脸书等公司都加速研发投入,进行战略布局。

数据、算法、模型是决定机器翻译系统译文质量的三个核心因素。问渠哪得清如许 ? 为有源头活水来。机器翻译引擎的训练需要大量的高质量的语料数据,特别是垂直领域的标记化、结构化、标准化的平行语料数据。 UTH 国际从成立之初,就把获取和处理高质量的垂直领域的多语言语料作为重点业务领域,并以此为基础,研发适合企业、高校、个人的跨语言产品和解决方案,凭借创业者和优秀行业团队的不懈努力,已经取得了多项成果,获得了多项专利技术。

在互联网时代,科技界和学术界密切交流,机器翻译的算法和模型基本公开透明,短期内无法实现创新性重大突破,数据最有可能成为提高机器翻译译文质量的要素。但是,由于平行语料都散落在不同机构和个人的电脑中,使得海量多语言数据收集成为世界难题。 UTH 国际正式看到这个现状,才持续努力改善现状,成为全球多语言数据收集和处理的领先者。

根据 UTH 国际提供的数据, UTH 国际与全球上万家机构、组织和个人建立合作伙伴关系, UTH 国际现有的语料 85% 来源于从全球专业机构进行采购, 15% UTH 国际专职信息工程师和语料专员,通过对开源信息的整理加工对齐后获得。至今已经积累了 87 亿句对的双语语料库(全球最大的垂直多语大数据库),覆盖“一带一路”沿线国家官方语言中的 33 种语言,覆盖法律、金融、生命科学、制造业、航空航天、交通运输、信息通讯、政府 / 非政府组织、教育等 15 个一级领域, 41 个二级领域, 178 个三级领域。

实际上, UTH 国际从成立之初就制定了“三步走”的发展战略。第一步,构建几十亿句对的高质量语料库作为公司发展的基础设施,努力成为全球领先的多语言大数据提供商。将这项工作从 2012 年起步, 2014 年快速发展, 2016 年提前超额完成计划。第二步,加快语言应用技术创新和科技成果转化,为国家 一带一路 构想服务, 服务省市“智慧城市”信息化建设, 为推动企业“走出去 服务 ,推动高等院校翻译与外语人才培养 UTH 国际从 2014 年开始 以语言大数据构建的基础设施为基础,凭借独有的语言处理专利技术,加强语言人工智能技术研发,加强应用型产品研发,与多个自然语言处理实验室加强技术合作,发布了“芝麻”系列语言大数据产品,包括芝麻翻译、芝麻搜索、芝麻译库、芝麻秘语、芝麻发布,为高等教育、科研院所、语言服务提供商、语言服务需求方、跨境电商、影视传媒、文化旅游、人工智能等多个方向和领域提供高端应用和服务。第三步,将服务领域向语言大数据产业上游发展,以专门用途语料数据库为依托,开发多语垂直信息内容设计与编辑的开放式、智能化和交互式平台。当前已经发布了涉外法律文本写作与翻译平行语料库、“一带一路”旅游与酒店管理多语种语料库等。

搜狗公司是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。 2016 年,搜狗研发出国际领先的搜狗机器翻译系统。该系统运用了最前沿的基于深度学习的神经网络机器翻译框架,可通过理解上下文语境给出精准的翻译结果。 2017







请到「今天看啥」查看全文