专栏名称: 张江发布
"张江发布"由上海张江高科技园区管委会运营,旨在帮助企业面向全球推广新技术、新产品,对接资本、市场、人才等创新创业要素,助推上海建设全球科技创新中心。
51好读  ›  专栏  ›  张江发布

人物 | 达观数据陈运文:曾任职于盛大、腾讯、百度,他要做To B版今日头条

张江发布  · 公众号  · 上海  · 2017-07-03 18:16

正文


本文来源:亿欧

作者:杨晓鹤


走进上海达观数据公司,你可以看到每个办公室的名字都有特色,比如CEO办公室名字叫最大熵,CTO叫神经网络,销售总监叫贝叶斯网络。百度出身的达观数据创始人陈运文毫不掩饰自己对技术的追求,“大数据正在融入我们的工作和生活中,数据挖掘和深度学习正改变我们对世界的认知,今后你所看到、所听到的都是数据优化过的结果 。”



未来世界将不再是原本的样子,这听起来有些惊悚,陈运文解释这是一个 利用数据更懂你的过程。 比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。 “亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。 未来不但在购物,大数据也将在文字喜好、视频推荐等方面的影响越来越大。”


做文本挖掘领域To B的今日头条


达观数据所做的事,用一个词概括就是 “文本挖掘” 。文本挖掘在很多方面可实际应用,比如对每年的高分作文进行分析,得出如何写高分作文的“秘诀”。达观数据总结出了 “正-反-合”典型辩证法 ,欲扬先抑的 “重叠式” 等多种高分作文写法,并总结出不同命题作文中的关键词,这样一篇高分作文的骨架基本搭建完毕。陈运文用高考作文的直观案例,直观解释文本挖掘可以产生的价值。


其实陈运文认知到文本挖掘的价值,是在其创业前的职场经历中。陈运文是复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师。陈运文回忆在盛大时期,一开始文字录入和图书推荐都是手工完成,后来随着数据量暴增,每天处理数据超过1亿字,开始使用数据机器清洗、审核、分类各类文本,通过文本挖掘技术提升人工效率。


目前市值数十亿美元的今日头条已经基本没有人工编辑,正是基于其文本分析技术优势(当然用户行为分析也是今日头条的优势)。不同于今日头条的To C,陈运文当时看到To B领域的文本挖掘还不成熟,他认为在此技术基础上打造垂直搜索引擎、个性化推荐引擎等工具,提供给企业将是很有前途的事情。


算法是企业发展立命之本


很多企业都有大量文本资料,比如科技媒体的CMS(Content Management System)系统,传统企业的ERP(Enterprise Resource Planning)、制造行业的MIS(Management Information System)。“中国企业已经认识到数据重要性,越来越多的企业将信息化纳入议程。很多企业的内部数据也很丰富,但没有很好的方法挖掘,可谓守着金山要饭。”陈运文希望自己不断推进达观数据的算法演进,将企业内部数据发挥出最大价值。


在企业内部的搜索、推荐引擎中,系统会通过复杂算法生成一个最终的结果列表,如何让用户对这个排序列表满意是关键。达观数据在引擎架构研发实践中,大量使用到了点击模型,集成贝叶斯模型(DBN)、CCM模型等深度学习模型,通过与用户的隐性交互,提升算法效果。







请到「今天看啥」查看全文