专栏名称: 虎嗅APP
有视角的商业资讯交流平台
目录
相关文章推荐
36氪  ·  爸妈在直播间买的假货,退都退不完 ·  4 天前  
新浪科技  ·  【#理想汽车9月交付53709辆#,创单月交 ... ·  1 周前  
51好读  ›  专栏  ›  虎嗅APP

谷歌的“数据霸主地位”正被垂直领域B2B数据公司动摇吗?

虎嗅APP  · 公众号  · 科技媒体  · 2017-08-07 21:14

正文


最有价值的数据资产正从互联网端向垂直领域企业端转移。

 
如果说谷歌是互联网时代的大数据霸主,通过提供搜索服务网罗了海量的用户数据,那么后互联网时代,在企业端和政府端,正在诞生一批可匹敌谷歌百度的企业端大数据搜索引擎。
 
Palantir是其中最有潜力的代表,发家硅谷,短短几年内跻身百亿俱乐部,成为全球估值排名第四的初创公司。Palantir的目标是未来企业级大数据霸主,做企业和政府领域的Google。而从技术角度来分析,这也是大数据发展的必然趋势。
 
这类公司往往有很固定的商业模式:通过对大量非结构化数据的抓取和分析,为商业机构提供分析决策、市场研究、信息分析、公共趋势预测等应用场景。
 
如此清晰的商业模式理应招致一批大小公司的激烈角逐,但事实上除了Palantir,相关领域却鲜有可匹敌的独角兽,那么阻碍大量公司从这个领域崛起的,就不只是算法和技术门槛了。

B2B数据资产争夺战:做垂直领域企业端Google

当算法趋于一致的时候,竞争的就是垂直领域掌握的数据规模和质量。这句在大数据行业流传颇广的话道出了“数据资产”的重要性。
 
目前,大量的数据金矿还在众多大型企业和政府机构的服务器集群中沉睡:比如政府部门的信息中心、信用卡运营商的呼叫中心,这些行业掌握着成千上万关键领域的大数据,包括各种业务数据、语音视频图片、时空数据等。这意味着以垂直行业和垂直应用领域为代表的大数据创新方案将获得不断拓展。
 
2016年半年内就融资4亿元,中译语通成为大数据行业杀出的新黑马。凭借其垂直领域“专业大数据引擎”的角色定位,从语言科技与服务、机器翻译、再到跨语言大数据在垂直领域的分析与应用,中译语通正把“翻译”的标签撕下——
 
如果仅从名字和出身来看,你不会想到这家母公司为“中国对外翻译有限公司”的企业拥有着全球最大规模的非结构化数据(文本、语音、图片、影像)的实时搜索、更新和分析能力,且形成了对标Palantir的技术生态和商业模式,名入2016年中国大数据准独角兽企业榜单。
 
互联网巨头以其已有的大数据技术优势,将业务触角向传统行业延伸;以中译语通的大数据平台译见为例,通过极为强大的机器翻译能力,及其把控了超过千万个全球精准数据源,超过65种语言,对每个数据源进行单独的技术配置、对获取的非结构化数据进行实时地、智能地结构化,构建起知识图谱,并进行大数据分析。
 
据中译语通称,其旗下的译见大数据平台日更新网页数据已经超过了3000万篇,社交媒体的数据每天更新已经超过了5亿条,机器翻译每天的访问量超过1.5亿次,相当于每天翻译超过30亿字。

这是一个无比庞大的数据海洋。
 
在把握了庞大数据的基础上,Palantir一类的公司成为了企业巨头和政府领域的数据大脑。其核心技术可以说是构建了一种“大数据分析的基础设施”,即通过数据搜集融合,智能分析和可视化决策几个层面为客户提供各种敏捷数据分析平台和系统,基于海量数据的融合和分析,为商业机构提供分析决策、市场研究、信息分析、精准营销及公共趋势预测等应用场景,甚至可以追踪病毒爆发提供支持。

去除了语言符号的大数据范围,又可以再扩大一圈
 
如果说谷歌、亚马逊、Facebook等互联网巨头整合的是B2C大数据,那么对企业端数据整合的就是B2B垂直大数据。
 
而对于这类数据应用最重要的,是对数据集的想象力。
 
“如果把数据的语言符号去掉的话,那数据的量级是不是要大几倍呢?”中译语通CEO于洋在采访中这样表示,“这是我们很早之前,从语言的角度切入,想到的一个问题。”

(中译语通CEO于洋接受媒体采访)

而先天的语言基因给了中译语通看待数据的独特角度:在2015年10月,中译语通首次提出了“跨语言大数据”概念,并陆续推出了面向多种垂直行业、全球企业机构和政府平台的大数据分析应用——译见大数据分析平台,其在多个垂直领域里提供企业级大数据分析服务,并在其中贯穿了完整的语言生态。

“我们从机器翻译进入到了大数据,进入到了跨语言的大数据。而这一切,都是从一个一个的不着边际,从最开始的不着边际的黑脑洞开始的。”
 
中译语通认为,去除了语言符号的大数据范围,又可以再扩大一圈。因此从2013年起,中译语通已经开始构建机器翻译生态。
 
“译云语言科技生态”下还有”找翻译APP”、YeeCloud.com、Yeekit.com智能语言科技工具平台、译云翻译输入法、网页翻译工具等等,多语言商业信息分析能力,为工业企业提供定制化解决方案,基于线上平台进行快速的可视化报表展现服务,为决策提供支持。 


“在全球不断汇集的数据中,我们试图去精准地结构化每一层数据,每一条新闻、每一条Facebook、每一条Twitter、每一条网页数据。对于每一条非结构化数据,我们会精准地解构出来平均7-8条的知识图谱,包含了时间、地点、人物、事件、机构等等。而我们将这超过3000万篇章、5亿多条每一天的数据更新,叠加出来去分析,每两点之间、三点之间、任意一点之间、任意一个要素之间的关联关系。而这些在数据底层里面构成了一个去掉语言符号,汇集起来庞大无比的知识图谱。”于洋称。

(7月29日,中译语通正式发布了全新译见大数据技术生态。会上,于洋再次强调了非结构化数据的重要性,并现场展示了中译语通大数据平台下的“数据地图”。)
 
从“数据地图”可以清晰看到,全球的每一条数据,不管是中文、英文、日文、法文,正在译见的大数据平台上被实时滚动采集。于洋说,“任何一个要素、任何一个主题,不仅仅是空气污染、经济增长、城镇化,在新闻、经济、政治、文化领域和每个行业里面,这就是一个工具、一个平台。”

聚焦数据智能,绘制自己的Gartner曲线
 
数据不在于大小,其价值关键在于对预测和研究的价值。技术咖对于Gartner的技术成熟曲线都不陌生:它展示了一项技术从诞生到高潮衰落的全过程。在发布会的最后,于洋还展示了基于译见大数据平台舆情数据分析出的“技术生命曲线”

通过对全球数据的采集、挖掘、计算,监测每一条新专利、新技术,中译语通对不同的厂商、新闻媒体、社交媒体的讨论内容进行分析,再计算这些数据叠加之间的关系:有多少成熟的技术,有多少已经进入了应用阶段,有多少还在实验阶段。


“每一个重要事件是我们通过全球采集来的数据,通过智能的分析来自己标注出来了每一个重要的转折点。就像我们刚才看到的数据心电图是一模一样的,而这条数据曲线是真实的。我们可以看到,从2016年进入到2017年,整个VR技术的产品热度开始明显下降。”于洋说。“所有这些算法叠加在一起,使得我们今天能够真正呈现出来一条完美的技术生命曲线。我想这也是我们在科技领域、技术领域会带来对一些非常重大的突破。”
 
而这条曲线所显示的数据智能,是中译语通这类公司一直专注的,通过数据预见的未来。

(中译语通“幻化大会”现场)

特别策划