专栏名称: 张江发布
"张江发布"由上海张江高科技园区管委会运营,旨在帮助企业面向全球推广新技术、新产品,对接资本、市场、人才等创新创业要素,助推上海建设全球科技创新中心。
目录
相关文章推荐
上海本地宝  ·  浦东餐饮消费券发放额度 ·  4 天前  
51好读  ›  专栏  ›  张江发布

人物 | 达观数据陈运文:曾任职于盛大、腾讯、百度,他要做To B版今日头条

张江发布  · 公众号  · 上海  · 2017-07-03 18:16

正文


本文来源:亿欧

作者:杨晓鹤


走进上海达观数据公司,你可以看到每个办公室的名字都有特色,比如CEO办公室名字叫最大熵,CTO叫神经网络,销售总监叫贝叶斯网络。百度出身的达观数据创始人陈运文毫不掩饰自己对技术的追求,“大数据正在融入我们的工作和生活中,数据挖掘和深度学习正改变我们对世界的认知,今后你所看到、所听到的都是数据优化过的结果 。”



未来世界将不再是原本的样子,这听起来有些惊悚,陈运文解释这是一个利用数据更懂你的过程。比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。“亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。未来不但在购物,大数据也将在文字喜好、视频推荐等方面的影响越来越大。”


做文本挖掘领域To B的今日头条


达观数据所做的事,用一个词概括就是“文本挖掘”。文本挖掘在很多方面可实际应用,比如对每年的高分作文进行分析,得出如何写高分作文的“秘诀”。达观数据总结出了“正-反-合”典型辩证法,欲扬先抑的“重叠式”等多种高分作文写法,并总结出不同命题作文中的关键词,这样一篇高分作文的骨架基本搭建完毕。陈运文用高考作文的直观案例,直观解释文本挖掘可以产生的价值。


其实陈运文认知到文本挖掘的价值,是在其创业前的职场经历中。陈运文是复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师。陈运文回忆在盛大时期,一开始文字录入和图书推荐都是手工完成,后来随着数据量暴增,每天处理数据超过1亿字,开始使用数据机器清洗、审核、分类各类文本,通过文本挖掘技术提升人工效率。


目前市值数十亿美元的今日头条已经基本没有人工编辑,正是基于其文本分析技术优势(当然用户行为分析也是今日头条的优势)。不同于今日头条的To C,陈运文当时看到To B领域的文本挖掘还不成熟,他认为在此技术基础上打造垂直搜索引擎、个性化推荐引擎等工具,提供给企业将是很有前途的事情。


算法是企业发展立命之本


很多企业都有大量文本资料,比如科技媒体的CMS(Content Management System)系统,传统企业的ERP(Enterprise Resource Planning)、制造行业的MIS(Management Information System)。“中国企业已经认识到数据重要性,越来越多的企业将信息化纳入议程。很多企业的内部数据也很丰富,但没有很好的方法挖掘,可谓守着金山要饭。”陈运文希望自己不断推进达观数据的算法演进,将企业内部数据发挥出最大价值。


在企业内部的搜索、推荐引擎中,系统会通过复杂算法生成一个最终的结果列表,如何让用户对这个排序列表满意是关键。达观数据在引擎架构研发实践中,大量使用到了点击模型,集成贝叶斯模型(DBN)、CCM模型等深度学习模型,通过与用户的隐性交互,提升算法效果。


达观数据另一项在成熟技术基础上创新的是NER(Named Entity Recognition,命名实体识别),又称专名识别。NER系统就是从非结构化的文本中抽取出人名、地名等实体,形成结构化数据以提升科技企业文档管理。达观数据开发了基于CRF模型的中文NER系统,对新兴技术进行研究集成。同时,针对不同行业及任务积累文本语料,并不断的使用新数据对语料模型进行升级更新。


除了对原有技术升级,达观数据还开发出双层叠加等独创算法。到目前为止,达观数据在算法方面已经申请了23项国家发明专利,再加上不断参加创青春中国互联网大赛、ACM KDD-Cup等国内外大赛并获得奖杯。出色表现也让他们获得了不少资本认可。


在成立一年( 2016 年)之际,达观数据获得真格基金领投的千万级天使投资。2017年4月中旬,达观数据又宣布完成软银赛富领投,方广资本跟投的5000万元A轮融资。


经受住科技、电商等行业考验


达观数据利用数据挖掘技术捕捉全网信息,基于文本语义理解,用户画像分析产品,捕捉网站流量走势、用户行为及产品销量预测。


“我们的文本挖掘业务在上百家大型企业落地,很多一流的科技媒体也应用了我们的服务,从而可以自动分类、自动识别、自动审核文本内容,减轻企业的人力负担。”


陈运文举例达其产品在世界500强公司的具体应用。这家企业内部积累了大量的资料,比如说招投标的文档和培训知识库,他们需要一套内部资料搜索系统。打造这套系统的难点在于长文本的语义理解,比如说一个招标文档书,每一段落想表达的是什么意思。


陈运文介绍,只有真正理解这些文本的语义,这套垂直搜索系统才能准确找出想要的内容。达观数据算法模型中包含的NER系统,在解决这类问题中发挥了重要作用。


达观数据另一家典型客户丰趣海淘,是顺丰旗下唯一自营的跨境电商平台。在使用达观数据的垂直搜索引擎过程中发现,丰趣海淘用户的购买关注点,是更关注产品的价格,其次才是销量,那么网站的运营人员就可以配合营销手段适当调节产品的价格,然后以此提高客户留存和购买转化率。


目前达观数据已经在科技、金融、视频、媒体行业推出解决方案,陈运文介绍使用其产品后,企业平均日活增加30%,搜索效果提升2倍,点击率提升300%,客户收入提升27%,用户停留时长增加50%。


而对于未来,陈运文相信海量文章资料搜索、语义理解、智能个性推荐,正成为大数据重要组成部分。达观数据会在这几方面努力,最终希望成为更懂数据含义的公司。比如帮助媒体行业脱离时间排序,达到根据每个人的兴趣推荐;而在资料读取方面,会加强语料训练,让达观数据的产品适应更多垂直行业。