专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

数匠专访|第9期 方桢:DMP构建以及数据分析实战项目的经验分享

爱数据原统计网  · 公众号  · BI  · 2017-07-26 17:00

正文

请到「今天看啥」查看全文



方桢


曾就职于Opera Solution咨询公司担任分析Lead,现就职于游族网络大数据部门业务负责人


多个 大型数据挖掘项目经验 ,擅长基于Hadoop/Hive/Spark的大数据分析项目架构, 深入了解多个行业, 掌握多种前沿机器学习技术和分析方法,能根据不同行业,设计不同数据应用场景,洞察数据的应用方向和产品;3年中等规模团队管理经验。


出品|中国统计网(ID:cntongji)

嘉宾|方桢

采访|赵良

审核|赵良

编辑|惊渡




赵良:对于数据挖掘,DMP平台的建设对后续的数据应用起到关键的作用。您之前有一段架构部门DMP平台工作经验,当时的应用场景以及针对的业务您能给我们分享一下吗?


方桢: DMP已经兴起两三年了。我从事大数据行业这么久以来,我认为DMP是一个集团或者一个部门的综合管理的查询、应用平台,这个平台有几个关键点。

第一点 ,必须具备整合所有系统数据的能力。 举个例子,我们在以前传统的数据里面,很难把各个业务线、各个系统的数据联合起来进行数据挖掘和分析,因为它们存在于不同的地方,是不同的软件或者不同的IT系统。没有办法去做任何关联上的分析。把他们整合到一个大的平台上才能在所有表、所有业务之间打通;


第二点 ,如何把数据关联起来。 关联起来的目的是从中挖掘曾经挖掘不到的数据价值。比如可以从不同的系统发现用户不同的行为特征,只有把这些信息全部整合到一起去挖掘,才能发现不一样的思路。这个是DMP区别于IT最大的点;


第三点,需要对数据进行有效的层次设计。 我们目前的做法是进行源数据数据集市、数据应用、数据建模以及数据报告四个层次的设计。这样的设计非常有利于业务的伸缩和扩展,因为不同的层次对应的普适性是不同的;


第四点,讲到IT架构这块。 我们对IT上的要求是随时可扩展并且无缝扩展。举个例子,如果数据变大了,系统支撑不了,那我可以迅速去采购,外部的机器就可以横向扩展进来。对于用户和企业来说,不用做像以前老系统需要做的数据迁移、数据备份,系统能够自动完成这个过程。对运维来说是透明的;


第五点,必须具备一定的智能和分析能力。 把数据集中到一起是为了解决业务,那业务本身有的是描述性的业务,只需要呈现、计算一些指标,为业务带来洞察。有些业务需要我们做预测和推断,结果和对策需要时间和市场去检验。



赵良:对创业型公司来说,可能没办法架构企业级的DMP。那么从技术上需要哪些软件以及人员支持?从软性的角度看,成功的DMP架构需要注意哪些步骤?


从小公司或者创业公司的角度来说,如果它应用的目标只是一两个业务,那短期内没有必要构建中等或大型的DMP平台。可以用一些单机的处理方法,比如现在常用的Python,R去做数据处理、数据建模、数据挖掘。只是数据支撑量不是太多,也没有高效的管理平台。如果对于一个业务相对较多的公司, 那么我的建议是使用 Cloudera 公司发行的 CDH 版本。首先它是免费的,社区版里面已经提供比较好、全的功能供使用方去做集群管理。而且它可以随意伸缩集群的规模。Cloudera CDH 还有一个优势是,它在整合了很多大数据生态圈的组建之后,会做金融升级的测试。所以我们只需要跟着它的步伐去升级就好,不用再去管金融的事情,非常方便。


从人员管理上来说 ,对于一个小型的公司,一两个人完全足以来做这个事情,只需要一些工程性的技术、数据分析和部分数据挖掘的能力就可以做的不错。如果是相对中型的数据应用规模,我建议需要5到6个人,两个人偏向于做工程,就像我们所说的大数据工程师,两个人偏向于做数据挖掘和数据分析。


在构建DMP的步骤里,主要思考以下因素:

第一个,目标的用处是什么。 你是想建立一个标签体系,还是一个用户画像,还是用来做推荐算法,或者做一个供业务部门共用的平台去挖掘数据的价值?基于不同的应用方向,数据仓库和业务层次的设计都是不同的。初期的思考是根据业务来设计的,因为源数据是无法直接使用的。


第二个,检查数据的质量。 做一个通盘的数据检查,发现问题并及时修复。虽然平台的容错性比较好,但可能这些错误数据也会对业务产生影响。


第三个,需要考虑中间的业务集市层次。 仓库设计是很重要的, 因为这能很好的帮助我们进行后期的业务探索。这就意味着源数据该整合的必须整合,该分离的分离,才能保证无论你的业务今后怎样变化,从数据集市提取出来的数据都是干净的,没有错漏、符合业务方向的,可以很好地进行使用,解决问题。


第四个, 有一些业务应用可能会用到数据挖掘和机器学习的算法,在应用这些算法的过程中,注意所用 业务数据的质量是否适合你选择的算法。 在你选择了正确的算法以后,应该怎么打磨数据使之适应这个算法。普通工程师和数据挖掘工程师不同的地方就在于,他不仅是在用一个工具处理数据,而是结合自己的业务经验和数据经验来对数据进行打磨,为相应的算法准备适合它的数据,才能达到真正的效果。


第五个,应用数据出来后, 如何向业务方推送标签,在跟外部用户交互时,就需要设计UI的交互,这涉及到其他部门,需要进行协商合作。



赵良:据观察,16上半年属旧平台的架构比较成熟,但相应的数据应用和数据分析可能不是那么完备,那么对于数据应用层来说,数据的应用标签是至关重要的,您是否可以举一个移动互联网方向数据用户画像的案例?


用户画像和数据应用的 关键在于业务 。应用是为了解决业务的某个问题,画像又是为了达成业务目标。只有搞清楚业务目标,才能明确业务方向。


比如,我们之前的业务目标是做广告投放,我需要知道每一个设备的特性,我就会把广告投在标签特别明显的用户上,才能增强最终的效果,降低成本。针对这样的应用目标,反过来看我们拥有什么数据。当时我们所有的数据是用户在移动互联网的浏览行为和偏好,我们会对这些数据进行标签化。


以交友APP为例,这样的APP有很多,我就会对它们进行虚拟化。 虚拟化 是指我先给这些APP做一个标签,3-4个标签能概括一个APP的特点,在这些标签的基础上再做一次汇总,我就能知道某个用户在其他标签上表现的强弱。在这个过程中用到了一些自然语言处理的方法,去对一些APP进行抽象化标签。还有一些标签不需要通过直接计算或者KPI设计就能做出来, 它需要通过一些数据算法去做推测和预测才能设计出来 。比如我们需要知道用户的性别,我们会根据用户在网站或者APP上的表现来推测其性别、常驻地等标签。 对于一个公司来说, 标签体系真正的价值在于:在不确定业务目标的情况下,要根据自身的数据优势,这样才能为今后的业务提供支持。当然,有了基本的画像之后,也可以根据业务的推动去添加新的标签、订制化的标签。



赵良:如果对移动互联网的用户进行画像,完成标签之后,后续的应用是什么?建立用户画像的过程中是否会用到一些用户模型,有哪些?又有哪些经典模型可供引用?


有一些标签只是描述性的,描述用户的状态或现在所处的阶段,当对所有标签进行汇总之后,就能形成业务监控的指标,这些指标可以带来一些预警,为很多业务提供比较好的支持。


举个例子,我的老用户现在迅速流失,此时的用户标签就是流失性的标签,对所有标签汇总后,会发现下个月将产生一次大量的用户流失。那其他需要应到的算法标签的关键在于它不能直接通过数据计算得出。这些算法里应用比较多的是 预测型算法 ,比如0—1型预测、逻辑回归、非0—1型的普通全值域的预测。 对于推荐型的预测,会用一些过滤或者SVD的推荐算法,还有一些我们会用关联分析的算法。 这几种算法它的区别就是 预测型算法 通过学习历史的特征来对其他的未知样本去做推测,比如说我知道我的用户里面有一部分的年龄我是清楚的,然后我会通过这些用户使用过什么,上过什么网站,或者买过什么商品,就能从他买过的商品里去学习他为什么会是男的,为什么会是女的,为什么是这个年龄段,然后我对其他我不知道的那些用户运用这些他买商品的逻辑,就可以去推测他是男还是女,这个算法它为我们去找到这个partner。 关联分析 就是我们经常听说的啤酒和尿布的例子,运用在我们移动互联网里面,我们是可以去做一些app和app之间的分析来找到这种关联性强的app,或者是去找到一些关联性强的商品、新闻,这些都是它直接应用的场景。 推荐算法也是在商品推荐和信息推荐大家常用的一个算法。



赵良:您在以往的过程中有没有针对于传统企业或是零售业的这种通过数据挖掘或者数据分析,对品类的管理、销量的提升有着很明显提升的项目案例,能分享一下吗?


对于线下的话,很多的业务场景是基于线下线上的数据,比如说现在很多互联网有移动GPS,基于LBS的一些数据,那么他就会对这个门店以及一些关键的地点做精准的一项,因为这些数据采集到以后,它和地理位置、线上的用户画像关联起来,可以帮助很多品牌或者说专卖店去做不一样营销方案。


说一个之前做过的传统行业,是一个中国的体育零售行业的例子。他面对的问题是他们在国内有成千上万家的专卖门店,但是这些门店进的货品,成列,各种仓储的库存管理都是不一样的,所以每个店都会出现不同的畅销品、不同的滞销品。分享一下我在以前公司的时候做的一个解决方案,我们构建SVD模型,根据其他门店卖东西的情况,来判断你这个门店是否也应该去配备这个品类的东西,比如说其他的门店可能卖球鞋也卖袜子也卖护膝,你这个店却没有,那么在这个模型里面能够根据它以往的销售历史去发现规律。然后 在滞销品和畅销品 的上面我们又提供了一个季节预测的算法,帮助他们对于每个品类的鞋、衣服做销量的预测,来帮助他们下订单和库存的调动,来解决缺货和积压的问题。季节预测是一个非线性的季节预测,即任何一个快销产品都有生命周期,初期可能销量很低,中间成熟期销量高到后期的迅速衰弱, 所以我们需要根据不同商品的特性,拟合一条适合它的季节销售曲线来帮助提前下订单。



赵良:对于季节的销量预测曲线,用到了哪些模型以及这个模型的IOI结果怎么样?如果说这个模型运营的非常好,那最终模型的产出是一些数据的回程到数据库里还是说是其他?


季节预测曲线的作用主要是帮助他们去提高,要提前知道畅销品,所以要多下订单,提前知道哪些是滞销品,则减少一定的订单。因为很多以前的企业是一个季度下订单,非常不利于对库存良好的反应和管理。而运用我们的模型以后,我们从计数开始,每一周都会帮它修正,根据它新的销售数据,每周都会预测接下来(比如8周)的销售量,相当于是提前8周去下订单,可以对销量保持很好的库存反应。


我们带来的作用主要是缩减了畅销品缺货率和滞销品的库存积压的周转时长,提升了销售量的指标和畅销品的库存指标。


模型主要用的是非线性的曲线做的拟合,跟时间、选择的曲线的分布有关,所以主要运用了 非线性的时间序列的回归算法



总结:

这次的访谈到此结束,关于DMP,用户标签,以及线下的数据分析和数据建模的一些项目经验,谢谢方桢今天的分享,未来如果有其他的问题也可以代为转达。



大家有什么问题可以在下方留言~


End.

本文为中国统计网原创文章,需要转载请联系中国统计网(小编微信:ishujiang),转载时请注明作者及出处,并保留本文链接。




数匠往期专访回顾

LoveData大数据100+系列访谈第 001 期—— 专访 | 阿里巴巴资深数据分析师的成长之路

LoveData大数据100+系列访谈第 002 期—— 专访 | 北京大学高材生的数据分析学习历程

LoveData大数据100+系列访谈第 003 期—— 专访 | 高级BI经理:流量分析之实际操作分享

LoveData大数据100+系列访谈第 004 期—— 专访 | 高级BI负责人:初创型企业如何搭建数据体系

LoveData大数据100+系列访谈第 005 期—— 专访 | 涨姿势了!数据分析在航空业可以这么玩

LoveData大数据100+系列访谈第 006 期—— 专访|郜耿威:一款成功的数据产品在于能够帮用户解决问题

LoveData大数据100+系列访谈第 007 —— 数匠专访|第7期 黑子:如何进行用户分析——实战案例分享

LoveData大数据100+系列访谈第 008 —— 数匠专访|第8期 欧阳烈:如何做好元数据质量管理?







请到「今天看啥」查看全文


推荐文章
医学影像服务中心  ·  【今日征象】鱼口征
7 年前
易观方舟AnalysysData  ·  2017中国信息流广告市场专题分析
7 年前