很多企业都有大量文本资料,比如科技媒体的CMS(Content Management System)系统,传统企业的ERP(Enterprise Resource Planning)、制造行业的MIS(Management Information System)。“中国企业已经认识到数据重要性,越来越多的企业将信息化纳入议程。很多企业的内部数据也很丰富,但没有很好的方法挖掘,可谓守着金山要饭。”陈运文希望自己不断推进达观数据的算法演进,将企业内部数据发挥出最大价值。
在企业内部的搜索、推荐引擎中,系统会通过复杂算法生成一个最终的结果列表,如何让用户对这个排序列表满意是关键。达观数据在引擎架构研发实践中,大量使用到了点击模型,集成贝叶斯模型(DBN)、CCM模型等深度学习模型,通过与用户的隐性交互,提升算法效果。
达观数据另一项在成熟技术基础上创新的是NER(Named Entity Recognition,命名实体识别),又称专名识别。NER系统就是从非结构化的文本中抽取出人名、地名等实体,形成结构化数据以提升科技企业文档管理。达观数据开发了基于CRF模型的中文NER系统,对新兴技术进行研究集成。同时,针对不同行业及任务积累文本语料,并不断的使用新数据对语料模型进行升级更新。
除了对原有技术升级,达观数据还开发出双层叠加等独创算法。到目前为止,达观数据在算法方面已经申请了23项国家发明专利,再加上不断参加创青春中国互联网大赛、ACM KDD-Cup等国内外大赛并获得奖杯。出色表现也让他们获得了不少资本认可。
在成立一年( 2016 年)之际,达观数据获得真格基金领投的千万级天使投资。2017年4月中旬,达观数据又宣布完成软银赛富领投,方广资本跟投的5000万元A轮融资。