2017
年
8
月
15
日,北京搜狗信息服务有限公司与上海佑译信息科技有限公司(
UTH
国际)的战略投资签约仪式在上海举行。搜狗公司搜索事业部总经理许静芳女士与
UTH
国际董事长兼首席执行官杜金林先生正式签约,共同宣布
UTH
国际完成
B
轮
4200
万元人民币融资。本次投资由北京搜狗信息服务有限公司战略领投,杭州海沣投资管理有限公司等机构跟投。
这则新闻引起了我很大关注。我热烈祝贺
UTH
国际和搜狗之间的战略投资,它将加强人工智能与跨语言大数据的融合应用,扩展跨语言大数据的应用场景,促进跨语言跨文化交流。抛开行业职业因素,我积极关注这则新闻的另一个重要原因是个人原因。杜金林先生是我的老同事和老朋友,我们
10
年前机缘巧合走到一起,
10
年后还在彼此密切交流。多年来,他对事业的无限热情、敏锐前瞻、高效执行、锐意进取的职业态度深深影响着我,成为激励我不断学习的榜样。
2007
年
3
月的一个普通夜晚,杜总约我在
MSN
上在线聊天(那时还没有出现微信)。我此前不认识杜总,本地化行业的前辈告诉我,杜总是国内本地化行业的资深人士,
20
世纪
90
年代初期进入本地化外企工作,其中包括著名的
ALPNET
(现在的
SDL
)、
Lionbridge
等企业,并在多家公司担任高级管理岗位。那晚的聊天改变了我的职业发展轨迹,我决定从北京莱博智公司(
Lionbridge
)辞职,
2
个月后与杜总等开始成立昱达公司,走上创业之路。
经历了创业的艰辛,才能体会到人生的色彩。
5
年后的昱达公司已经走上了健康发展的道路。后来杜总加入华为全球化部门,担任本地化高级顾问。
2012
年的春天,机器翻译行业应用的曙光初放,杜总跟我说他要到上海二次创业,我知道杜总志向远大,昱达无法实现他的梦想,我鼓励他继续追随梦想。我选择继续坚守昱达,并开始投身中国高校的本地化人才教育工作,这也是我多年的兴趣所在。
此后,我每次到上海出差,只要有时间,我都到
UTH
国际公司参观,与杜总和他的同事们交流。每次都能看到
UTH
国际的快速发展,特别在跨语言大数据方向上的持续努力和取得的一系列成就,
UTH
国际在跨语言大数据领域的深耕细作,从成立之初就收到资本的青睐,从初期的天使投资,到鼎晖资本、老板实业集团的多轮投资,以及本次搜狗的战略投资,我感到欢欣鼓舞。我也感受到杜总从创业初期的激情澎湃,转为现在的淡定从容,这
5
年改变的不仅是岁月,还有他对人生事业的思考。
2012
年到
2017
年,是人工智能和大数据领域快速发展的
5
年。有人在时代大潮冲击下茫然失措,找不到前进的方向。有人拥抱变化,激流勇进,成为时代弄潮儿,笑傲江湖。
互联网、大数据、全球化、走出去是当前全球和中国发展的社会现实。随着各国经济、贸易、文化、科技等领域的深度交流,跨语言交流成为阻碍人们自由交流的障碍。发展一带一路构想,实现政策沟通、设施联通、贸易畅通、资金融通、民心相通,关键和难点在于民心相通,阻碍民心相同的是不同国家和民族的语言,语言是文化和文明的载体。
在突破跨语言交流的各种努力中,互联网
+
跨语言大数据已经实现了突破,并且还将在快速发展中,显示跨语言大数据的巨大力量。马云开始提出当前已经从信息技术时代进入数据时代,谁拥有数据,谁就拥有未来。上周在成都召开的语言服务行业大会上,多位行业专家提出人工智能语言服务技术的发展速度,影响着一带一路构想的实施广度。
在跨语言人工智能领域,特别是自然语言处理领域,机器翻译是此领域最活跃的分支,被称为自然语言处理皇冠上的明珠,其对人类语言、文化、文明交流的巨大作用,引来科技界、学术界、投资界、政府的积极投入。
2016
年
9
月,谷歌公司发布了神经机器翻译系统,以良好的译文质量、快速的翻译能力,成为当今机器翻译研究和应用领域的新方向。国内外此领域的领导企业都在积极推动机器翻译的发展,搜狗、百度、阿里、腾讯、讯飞、微软、脸书等公司都加速研发投入,进行战略布局。
数据、算法、模型是决定机器翻译系统译文质量的三个核心因素。问渠哪得清如许
?
为有源头活水来。机器翻译引擎的训练需要大量的高质量的语料数据,特别是垂直领域的标记化、结构化、标准化的平行语料数据。
UTH
国际从成立之初,就把获取和处理高质量的垂直领域的多语言语料作为重点业务领域,并以此为基础,研发适合企业、高校、个人的跨语言产品和解决方案,凭借创业者和优秀行业团队的不懈努力,已经取得了多项成果,获得了多项专利技术。
在互联网时代,科技界和学术界密切交流,机器翻译的算法和模型基本公开透明,短期内无法实现创新性重大突破,数据最有可能成为提高机器翻译译文质量的要素。但是,由于平行语料都散落在不同机构和个人的电脑中,使得海量多语言数据收集成为世界难题。
UTH
国际正式看到这个现状,才持续努力改善现状,成为全球多语言数据收集和处理的领先者。
根据
UTH
国际提供的数据,
UTH
国际与全球上万家机构、组织和个人建立合作伙伴关系,
UTH
国际现有的语料
85%
来源于从全球专业机构进行采购,
15%
由
UTH
国际专职信息工程师和语料专员,通过对开源信息的整理加工对齐后获得。至今已经积累了
87
亿句对的双语语料库(全球最大的垂直多语大数据库),覆盖“一带一路”沿线国家官方语言中的
33
种语言,覆盖法律、金融、生命科学、制造业、航空航天、交通运输、信息通讯、政府
/
非政府组织、教育等
15
个一级领域,
41
个二级领域,
178
个三级领域。
实际上,
UTH
国际从成立之初就制定了“三步走”的发展战略。第一步,构建几十亿句对的高质量语料库作为公司发展的基础设施,努力成为全球领先的多语言大数据提供商。将这项工作从
2012
年起步,
2014
年快速发展,
2016
年提前超额完成计划。第二步,加快语言应用技术创新和科技成果转化,为国家
“
一带一路
”
构想服务,
服务省市“智慧城市”信息化建设,
为推动企业“走出去
”
服务
,推动高等院校翻译与外语人才培养
。
UTH
国际从
2014
年开始
以语言大数据构建的基础设施为基础,凭借独有的语言处理专利技术,加强语言人工智能技术研发,加强应用型产品研发,与多个自然语言处理实验室加强技术合作,发布了“芝麻”系列语言大数据产品,包括芝麻翻译、芝麻搜索、芝麻译库、芝麻秘语、芝麻发布,为高等教育、科研院所、语言服务提供商、语言服务需求方、跨境电商、影视传媒、文化旅游、人工智能等多个方向和领域提供高端应用和服务。第三步,将服务领域向语言大数据产业上游发展,以专门用途语料数据库为依托,开发多语垂直信息内容设计与编辑的开放式、智能化和交互式平台。当前已经发布了涉外法律文本写作与翻译平行语料库、“一带一路”旅游与酒店管理多语种语料库等。
搜狗公司是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。
2016
年,搜狗研发出国际领先的搜狗机器翻译系统。该系统运用了最前沿的基于深度学习的神经网络机器翻译框架,可通过理解上下文语境给出精准的翻译结果。
2017
年