专栏名称: 互联网分析沙龙
为您提供专业的商业模式、产品、数据、用户、电子商务、社会化媒体、移动互联网等深度分析的信息网站!秉承“信息交流、深度分享”的理念,是为用户缩短获取信息途径,提升阅读质量的深度分析网站。
目录
相关文章推荐
51好读  ›  专栏  ›  互联网分析沙龙

干货 | 从零开始,构建数据化运营体系

互联网分析沙龙  · 公众号  · 科技媒体  · 2017-02-15 18:10

正文

|沙龙精选自公众号秦路(ID:tracykanc)


文|秦路


数据化运营是一个近年来兴起的概念,它在运营的基础上,提出了以数据驱动决策的口号。


在了解数据化运营前,运营们有没有过如下的问题:


不同渠道,效果究竟是好是坏?

活跃数下降了,到底是因为什么原因?

这次活动推广成效如何?

发布了版本,用户喜不喜欢?

我们总是说传播,传播到底有多大?


这是产品和运营每天每时每刻都会遇到的问题。数据化运营,实际以解决这些问题为根本。它从来不是BAT的专属,也不是大数据的独宠,每一家互联网公司,都有适合的数据运营土壤。


数据运营体系,是数据分析的集合与应用,也是数据先行的战略,它不仅是运营人员的工作,也是产品、市场和研发的共同愿景。从管理角度,是自上而下的推动,如果领导不重视,那么执行者数据用得再好,也是半只腿走路。


如何构建数据化运营体系呢?以下是我的总结思考。


我将数据化运营体系划分成四层架构,每一层架构都逐步演进互相依赖,每一层又不可缺少。这四层分别是数据收集层,数据产品层,数据运营层,用户触达层。它是以运营人员为视角的框架。


02

数据收集层


数据化运营体系的底层是数据收集,数据是整个体系中的石油。


数据收集的核心是尽可能收集一切的数据,它有两个原则:宜早不宜晚,宜全不宜少。


宜早不宜晚, 意思是产品从创立阶段,就需要有意识的收集数据,而不是等到公司发展到B轮、C轮才去收集。数据化运营贯彻产品全阶段,不同阶段有不同的运营方法。


宜全不宜少, 指的是只有不合适的数据,而没有烂数据。像历史数据、变更记录或者细节处的数据,都存在价值。


举一个例子,有一家金融产品,它的征信系统会详细记录用户的行为,用户在借贷时上传担保资料,会记录用户在这些页面的操作步骤和时间。这里有一个假设,上传担保资料普通人一定是谨慎小心的,如果这步骤完成的非常顺畅快速,很可能是会违约和欠款的人群:你操作那么溜,是不是想捞一笔?属于熟练工作案。征信系统会把这些数据作为特征判断风险。


需要收集的数据能划分成四个主要类型:行为数据、流量数据、业务数据、外部数据。


  • 行为数据


它是记录用户在产品上一系列操作行为的集合,按时间顺序记录。用户打开APP,点击菜单,浏览页面是行为;用户收藏歌曲、循环播放歌曲,快进跳过歌曲是行为。


行为数据的核心是描述哪个用户在哪个时间点、哪个地方,以哪种方式完成了哪类操作。


我们可以利用其分析用户的偏好,页面停留时间的长短,浏览的频繁程度,点赞与否,都可以成为依据。另外一方面,用户行为也是用户运营体系的基础,按不同行为,如购买、评论、回复、添加好友等,划分出不同梯度,定义核心用户、重要用户、普通用户、潜在用户的分层。


行为数据通过埋点技术收集。埋点有不同种的实现方式,采集到的数据内容倒是没有差别,主要以用户ID,用户行为,行为时间戳为最主要的字段。用表格画一个简化的模型:

useId用来标示用户唯一身份,通过它来确定具体是谁,理解成身份证号就行。


active就是具体操作的行为,需要在技术层面设置和定义,timestamp就是发生行为的时间点,我这里只精确到分,一般会精确到毫秒。用户的行为记录应该详细,比如浏览了什么页面,此时页面有哪些元素(因为元素是动态的,比如价格),它是半结构化的NoSQL形式,我这里简化了。


有时候为了技术方便,行为数据只会采集用户在产品浏览的页面,像点击、滑动这类操作不记录。属于折衷的方法。


除此以外,行为数据还会记录用户设备、IP、地理位置等更详细的信息。不同设备的屏幕宽度不一样,用户交互和设计体验是否会有差异和影响,怎么拿来分析?这也是数据化运营的应用之一,是宜全不宜少的体现。


  • 流量数据


流量数据是行为数据的前辈,是Web1.0就兴起的概念。它一般用于网页端的记录,行为数据在产品端。


流量数据和行为数据最大的差异在于,流量数据能够知道用户从哪里来,是通过搜索引擎、外链还是直接访问。这也是SEO、SEM以及各渠道营销的基础。


虽然现在是移动时代,Web时代的流量数据并不过时。比如微信朋友圈的内容都是HTML页面,活动运营需要基于此统计效果,我们可以把它看作一类流量数据。另外,不少产品是原生+Web的复合框架,内置的活动页大多通过前端实现,此时即算行为,也算流量数据,当我们将活动页发送到朋友圈时,相应的统计只能依赖基于前端的流量数据来采集了。


流量数据是基于用户访问的网页端产生。主要字段为用户ID、用户浏览页面、页面参数、时间戳四类,简化模型如下。

url是我们访问的页面,以 ***.com/*** 形式记录,param是描述这个页面的参数,我们在页面上的搜索、属性信息会以参数的形式记录。和行为数据一样,如果流量数据需要更详细的统计,也是以半结构化为佳,囊括操作记录。


它是活动及内容运营的好基友,活动的转化率,文章被发到朋友圈的阅读量等,都是作为流量数据被记录。主要通过JS采集。


流量数据的统计已经比较成熟,Google Analytics和百度统计都是知名的第三方工具,最为常用。不过它们不支持私有化的部署,只能提供统计,我知道这个页面有100人访问,但这一百人是谁不能定位,数据也无法记录在数据库中,这对数据化运营是一种麻烦。一些新式的工具则能支持这种更精细的需求,不过要收费。


如果有可靠和先进的技术手段,我们是能做到将行为数据和流量数据统一到一起,这是未来的趋势。


  • 业务数据


业务数据在产品运营过程中伴随业务产生。比如电商产品,我进行了促销,多少用户领取了优惠券,多少优惠券被使用,优惠券用在哪个商品上,这些数据和运营息息相关又无法通过行为和流量解释,那么就归类到业务数据的范畴。


库存、用户快递地址、商品信息、商品评价、促销、好友关系链、运营活动、产品功能等都是业务数据,不同行业的业务数据是不一样的,业务数据没有固定结构。


业务数据需要后端研发进行配置,因为结构不能通用化,最好提前和研发们打声招呼提下需求。


行为数据、流量数据、业务数据构成了数据来源的三驾马车。统称为原始数据,指没有经过任何加工。


  • 外部数据


外部数据是一类特殊的数据,不在内部产生,而是通过第三方来源获取。比如微信公众号,用户关注后我们就能获取他们的地区、性别等数据。比如支付宝的芝麻信用,很多金融产品会调用。还有公开数据,像天气、人口、国民经济的相关指标。


另外一种外部数据的获取方式是爬虫,我们可以爬取豆瓣电影评分、微博内容、知乎回答、房地产信息为我们所用。第三方不可能支持你获取,很多时候会有防爬虫机制。它需要一定的技术支持,不属于稳定轻松的来源。


外部数据因为质量难以保证,更多是一种参考的作用,不像内部数据能产生巨大的作用。


这四类数据构成了数据化运营的基石。随着互联网公司数据化水平的提高,能够利用的数据越来越多。数据结构逐步从SQL到NoSQL;信息源更加丰富,图形和声音数据越来越多;技术由单服务器演变成分布式;响应从离线批处理到实时流式,都是数据收集的挑战。


当我们有了数据以后,进入下面一层,数据产品层。


02

数据产品层


数据产品是对数据的加工和利用,它属于技术和自动化的范畴,由计算机对原始数据进行处理。它不是传统意义上的数据产品(如广告系统),而是以发挥数据价值和生产力为目的,理解成进行数据加工的产品也可。


原始数据并不能直接为运营所用,通常脏乱差,我们需要按照一定的标准整合、加工。


比如行为数据和流量数据,用户在微信朋友圈看到一则活动觉得不错,于是下载APP,注册后参与了活动。这里的行为数据和流量数据是完全独立的。微信朋友圈的浏览,记录的是用户weixinOpenId和cookie,下载后则是产品内部使用的的userId,两者无法对应,这就需要数据整合,将cookie、手机号、userId等信息映射(mapping)到同一个人。


这是技术层面的数据清洗。整个过程叫做ETL。


数据发挥价值的方式有很多种。即能通过BI,将原始数据以维度和度量的方式聚合,进行各类可视化的决策分析,也能数据挖掘。根据业务和场景决定数据的不同使用。这里最重要的是先有指标。


  • 数据指标


我强调过尽可能的收集数据,然而原始数据那么多,怎么才能指导我们的业务呢?这要求我们从庞大的数据中找出方向。这时我们就要建立指标,指标就是我们的方向,它是业务和原始数据的连接器。

可以这样说,指标在数据化运营体系中是承上启下的润滑油,它由原始数据加工而来,反过来又驱动其他产品。


需要有BI?BI肯定是围绕指标建立仪表盘;要用机器学习算法?算法的目的就是提升指标效果的;你要运营?内容、用户、活动模块的KPI也是围绕指标的。


指标不是一个通常意义的数据产品,我更喜欢的解释,是数据届的产品经理,是驱动、规划其他数据产品以及配合运营迭代业务的。这样一说,大家就明白了。


指标如何设立,是根据运营业务所决定,也是运营的第一驱动力。


我们简单看一下指标如何由原始数据加工而来,下图是原始数据中记录的用户打开APP的情况。


每一个时间戳意味着对应的用户打开过APP一次,通过该表我们能计算每天有多少用户打开过APP,这是打开量,将用户数去重,就是运营中的重要指标:活跃用户数。通过对该表的进一步复杂运算,譬如用SQL的Left Join,能获得留存率。


文章阅读量、日销售额、活动参与人数,这些几乎都是由原始数据汇总加工而出。指标汇总以后,就是运营人员产品人员每日的报表Dashboard。


有了指标,我们再看其他的数据产品,因为篇幅有限,我着重介绍一下用户画像。


  • 用户画像


用户画像是常用的数据产品,对产品和运营人员往往带有神秘色彩。它有两种解释,也是很多新手歧义的根源,一种用户画像属于市场营销和用户调研领域,叫做Persona,更准确的翻译是用户角色,描绘的是一个自然人的社会属性,用于用户需求和场景的确定。


而数据领域的用户画像,叫做Profile,是将一系列数据加工出来描述人物属性的数据标签。最知名的例子就是淘宝的千人千面:用户去购买孕期的孕妇产品,很大可能被打上孕妇标签;浏览了汽车相关商品,会被打上汽车兴趣的标签。


用户画像是一个依赖大数据和机器学习的复杂体系。准确丰富的用户画像能呈指数级的提高运营效果。







请到「今天看啥」查看全文