⊙数源思维由来
⊙数源思维形式
⊙数源思维实践
⊙数源思维导读
段子
一个美国人,一个日本人还有一个中国人走在大沙漠中,走着走着看到一个阿拉丁神灯,擦了擦神灯飘出来一个人来,那个人说:“我是灯神,我能满足你们每个人三个愿望!”。
美国人第一个抢着说:“我第一个愿望是要很多的钱。”灯神说:“这个简单,满足你!说说第二个愿望吧。”美国人说:“我还要很多的钱!”灯神满足他的愿望后,美国人又说了他的第三个愿望:“把我弄回家。”灯神说:“没问题。”于是美国人带着很多的钱回了美国。
灯神又问日本人。日本人说:“我要美女!”灯神给了他美女。日本人又说:“我还要美女!”灯神也满足了他,给了他美女。日本人最后说到:“把我送回日本”。
灯神把日本人送回国后问中国人要什么。中国人说:“先来瓶二锅头吧。”灯神给了他。问他第二个愿望是什么。中国人说:“再来一瓶二锅头!”灯神问他第三个愿望是什么。中国人说:“我挺想日本人和美国人的,你把他们都弄回来吧”。
大数据就像灯神
你可以认为他是无所不能的,但这并不意味着他就能让你得到想要的一切,除非你善于提要求。不然,就像段子里一样,结果很悲催。你可能会说,要求谁不会提啊?段子就是段子,现实不会这样的。真的吗?
尴尬的问题,重视数据但用不好数据:
高层能熟练应用数据的战术价值,所谓战术就是数据作为辅助管理的手段或工具,影响是局部的。比如用KPI进行管理考核,分析经营数据来进行管理决策。就像战场上的坦克、大炮。
但管理者对数据的战略价值一般缺少直观体验。所谓战略价值,就是数据成为核心产品、服务,或对企业经营起着决定性、方向性的影响。比如淘宝,核心是什么?是它那套买卖双方的信用体系。之后延伸出的蚂蚁金服的核心是什么?就是芝麻信用。
还有马云为什么要一而再再而三的去发力社交产品?就是要场景,要数据。但是一些公司自己有数据,却开发不出数据的战略价值,只能把数据,甚至公司卖给阿里?就像核武器一样,如果能让数据发挥出战略价值,那你就能独霸一方。
这就是管理者不能给灯神提好要求的现实。
中层知道数据的应用价值,比如给用户画个像,能帮助产品设计的更有针对性;比如进行相关推荐,提高购买率。但这些成熟的应用还是少数,我说成熟,也就是在互联网领域大家还知道的多,很多传统产业里这些也才刚刚起步。
有更多方面,甚至应该说所有方面数据都是能帮助中层去解决问题的,但是我们可能不知道具体如何将业务问题转为数据问题。比如将广告创意,很多还是人的经验,脑风暴的工作模式。
如果不能自如的将业务问题转为数据问题思考,你怎么能向灯神提出有价值的要求呢?
一线的问题更尴尬。
手里有很多数据,常常会问:
我有这些数据,能派什么用?
大数据,数据先于业务问题到达数据部门。数据来自各种业务场景。
使用了很多技术和工具来应付数据,并且探索出了很多神奇的应用。在不知道能干嘛的时候,就靠好奇和技术来推动应用。
但是最终数据价值的发挥还是要回到业务中去。这时就会撞上前面三堵墙,造成两边对接不上。靠数据部门去推动战略、产品、运营、市场等等部门围着你转,在现有组织架构下是不可能的。
数据与经验相对应。
与数据相对应的是人的经验、直觉。
经验和直觉都是来自感官历史。什么是感官历史?就是“眼耳口鼻身意”对周围环境的感知而来的历史。只不过经验是个人感官历史中积累起来的,直觉是全人类感官历史中积累起来的。这就决定了,我们的经验、直觉都要受限于人的感官的,接触得到的有,接触不到的就无,对吧。可是人类最牛逼的并不是这些感官啊,而是大脑啊。
大脑思考需要载体的,重要的载体包括影像、声音和自然语言。人类智力飞跃有个重要节点——文字的发明。文字被发明和广泛使用后,人类的经验就从个体的直接经验扩展为了群体间接经验,人的认知边界一下就扩展了。识字的人与不识字的人对世界的认知差距一下就拉开了。
语言不是数据,被以文字方式记录下来后才成为了数据,语言文字就成为了第一个数据载体,所以人类有文本数据的时间以千年计;影像、声音本不是数据,被录影、录音器材记录下来后才成为了数据,所以人类有视音频数据的时间以百年计;小到量子,大到宇宙中的种种现象都不是数据。那数据是什么?
只有被人类的技术手段采集到了才成为数据的。所以数据简单说就是人造机制/机器对客观世界的观察成果。数据是大脑越过感官,从各种人造机器里直接获取的信息,对吧。这就意味着数据是人定的机制,人造的机器触达到哪里,哪里就是人的认知边界。
当科技在最近100年里爆发增长时,人类认知边界被极大拓展。而这种拓展的一个外在表现就是数据的爆发。
因此在企业中你就会出现这样的场景。
数据从业务中来,数据的源头是业务,业务的表现是数据。
业务人员要将战略、业务和操作问题化为数据问题;数据人员要讲数据还原成战略、业务和操作。
这就是数源思维的含义
但是业务与数据就是存在着这种隔阂,上中下三层有着不同程度,不同类型的隔阂。怎么打破?
可能你会有质疑,现在公司里的信息系统不就能将数据跟业务连接起来吗?有什么沟通障碍需要来打通呢?
将讲清这个问题,我先扯一个可能大家也比较关心的题外话,就是你的工作将来会不会被AI(就是人工智能)替代。
之前我写过篇分析《三生三世》和《射雕》差异的文章:你爱《三生三世》,我却独爱《射雕》,文章末尾我简要的解释了下数据挖掘、深度学习、机器学习、人工智能、大数据的关系,也谈到了数源思维和AI的关系。
在写那篇文章时我是人工采集的数据。我一个人足足花了两个晚上才做完2集。如果有一套程序实现自动化视频内容数据的采集,我想可能一会儿就能采集全剧五十几集的数据。这种视频数据挖掘程序很可能需要用到深度学习算法,那就是机器学习,就是人工智能了。
而建立AI需要大量数据训练,同样把这套人工智能用在网站所有影视内容的分析,那就是一个大数据应用。在这个过程中,AI就能实现对我的替代,但是替代了我全部的工作了吗?显然没有。比如说我为什么要去分析《三生三世》跟《射雕英雄传》的差别啊?是因为我好奇。AI会好奇吗?至少现在看来还不太会。因为AI的诞生都带着特定使命,而人生下来是没有的。
还有为什么要写文章出来呢?因为我有分享并期待认同的欲望。AI会有这样的欲望吗?也不太可能。因为AI之间的交流不需要分享和认同。
所以说不管是AI还是大数据技术,它们都是解答问题可供利用的工具、手段,而问题的提出和最终解决,都需要人类专有的能力或特质。
讲完这个题外话,回来再讲为什么业务跟数据之间的障碍不是系统能解决的,就很好理解了。不论是信息系统或者是数据,都是个安静的美男子,你不招呼他,他不会主动来打扰你的。业务始终是起点,所以业务端必须了解数据语言,将业务问题翻译为数据问题,最后再将数据答案转为业务方案,当有很多数据的时候,AI知道怎么办,你如果不知道,你就会被它替代,要想不被AI替代,就不要把你的心思放在数据上,永远要放在业务上。
现在知道什么才是破解这种沟通障碍的途径了吧?就是思维升级!
思维集中代表你的工作模式。如果公司上下左右思维模式不统一,高层制定的战略怎么落实?一线业务怎么让高层理解市场的变化?
数源思维能让你摆脱被AI抢掉工作机会。
刚才讲的过程,其实已经把数源思维的组成捋过一遍了。归纳起来就是“问拆解谋”
( 1 ) 问,要问得荡气回肠(与谋对应)
将业务问题分析定义为数据问题,这其中包括解决问题的目标。包括定义问题的需求者,或问题解决的相关者。
这些考虑的因素都是最后一步“谋”有对应关系的。
数源思维进行问题定义都可以归纳为:在约束条件下,按照数据决策方法对核心因素进行分析,从而做出决策对象的解决方案的问题。
所谓荡气回肠,就是所提问题一要重意义,二要知数据方法
( 2 ) 拆,要拆到四海八荒
第一步中定义好的问题往往因为比较宏观而无法直接着手解决,我们就需要将其拆分为更微观的细节问题,并进而再去寻找细分问题的解答方法。
遵循原则——逐层不漏不重
四海八荒,就是问题拆的既要细致,又要全面,任何一面都照顾到
同时,这个过程也能对第一步的问进行反馈和修正。
( 3 ) 解,要解得朴妙得当
当问题已经足够明确和细分,能着手开始解决后,我们就进入了“解”的步骤。在解答问题的整个过程中与思维密切相关的是方法、算法设计。
方法选择、算法设计要贴合,不求新,求高,求完美。
解对拆也有反馈作用,可以发现拆出的子问题中不可行的部分,并促使其修正。
( 4 ) 谋,要谋出格局宽广
解,只是回答了问题,或者说解决了提出的数据问题,但业务问题到此还没有被解决。我们必须将前面的结论结合业务实际形成方案,并说服相关者获得资源,进而着手去解决业务问题。
谋对解有反馈。并且最终实现驱动的效果,还继续可以用来检讨原先设定的问题和目标的定义。
某类互联网产品的用户运营团队分为两组人对两类用户分别进行运营。一组针对新用户,一组针对老用户。这种分工很好理解,用户阶段不同,对产品的熟悉程度、需求等都不同,所以运营重点不一样。
但是有一个小问题却会困扰这种分工,就是新老用户到底怎么划分。注册多长时间后的用户算老用户?
这看上去是个很简单的业务问题。一拍脑袋就可以定出一个标准,十天,半个月都行。但这么做,心里没底啊,不论对用户,还是对团队来讲都太草率。这是个原始问题。但这个问题是无从下手的。你得对问题进行分析、转换。
从新老用户划分的目的来看,针对新用户的运营在于教会用户使用产品,让用户接受并且开始养成使用产品的习惯。
而对应这个目的,当用户已经学会使用产品了,并形成自己使用产品的习惯后,新用户运营的目标达成后,用户就应该可以被看作老用户了。自然这个时候就可以将用户移交给老用户组去运营了。所以这个新老用户的划分问题,从源头看,就等于研究用户行为什么时候形成了习惯,用户从新手变老司机了。
这样原始问题:注册多长时间后的用户算老用户?就可以变为:新用户养成习惯需要多长时间?
习惯的含义是相对固定的生活方式或模式,其外在的表现就是相对稳定或固定的行为。
这样我们就把原始的老用户定义转变为习惯定义,进一步明确为对核心因素——行为的考察。
考察行为的什么?
固定、稳定程度。
习惯的含义是稳定的行为方式,其表现就是行为的稳定。
决策对象:新用户习惯养成的时点
约束条件:无
核心因素:新用户行为
数据决策:统计衡量行为稳定性
数源思维对这个问题的定义:如何统计衡量新用户行为稳定性来确定其习惯养成的时点。
问题本身蕴含了三个子问题:
(1)考察哪些新用户行为
(2)如何判断用户行为稳定性
(3)如何找出新老用户分界点
其中考察哪些新用户行为 又可以分出2个子问题
[1.1]新用户行为有哪些
[1.2]上述行为中哪些构成习惯的组成部分
对核心因素行为稳定性的判断,就是对行为值变化程度的衡量
最常用的极差、标准差等等都是衡量数据间的绝对差距,因此在比较不同用户的行为稳定性时,如果用户之间在行为数量上差距很大,那么使用绝对差距就会形成稳定性的误判。比如说有AB两个用户就某一项行为进行稳定性判断和比较。
在得到了每一个用户的稳定性数值后,分析新老用户分界点采用了两种独立的方法来探索。第一种方法是统计分析“显著老用户”的行为稳定值变化,大部分新用户的稳定值会呈现逐步上升最终到一个相对稳定的值,分析从上升到稳定水平的平均拐点出现在哪里,这个拐点就是新老用户的分界点。
第二种方法是针对同一天注册的新用户以5种行为稳定值为指标进行聚类,将用户自然分为了几个类别。然后分析随着时间推移,这批用户的类别结构在什么时候开始保持相对稳定,也就是从整体上这一批用户都成熟了。第一种方法是研究个体,第二种方法是研究群体。
这两种方法的结果是一致的,这个稳定的时间点(按:其实是个比较小的区间,但操作上必须要一个明确时点来划分)就应该作为新老用户的时间分界点。
新老用户划分的问题解答产生了一个副产品,可以有很重要的应用。就是当把所有用户的成熟度值合起来就能用来衡量网站用户整体的成熟度,也就是可以标识出产品的健康程度或者说是生命周期。与DAU、WAU等指标相比,成熟度指标更全面、系统、敏感。
全面是因为它集成了用户在产品中最主要的行为信息;系统是因为它的构成或算法蕴含了符合运营目标的行为规律和全站的行为关系特征;敏感是因为任何的变化都是开始于稳定性的破坏,在变化还没有出现能引发重视的绝对量时,就已经会让稳定值出现明显波动。所以后来还尝试用它来做用户流失预测。但是成熟度指标也有一个致命缺点,就是过于复杂。
DAU这类指标是单个时点、单项行为上进行的用户统计,所以是单维统计指标;用户成熟度是对连续时间、多种行为进行的用户统计,是将三个维度的数据压缩在一个指标里表达,所以称为三维合成指标。正是这样的特点使得DAU数值有直观含义,而成熟度数值则没有直观含义。
如果这个指标给领导汇报,领导一定会问:“UM分值是什么含义?”
你可以解释:“UM分数高就代表用户行为稳定性强,很成熟;分数低就代表稳定性弱,用户不成熟。”
领导会回答你:“含义太笼统模糊。比如PV的每一分值代表的是一个页面访次,DAU的每一分代表的是一个活跃用户。UM每1分,0.1分都代表什么?”
什么也代表不了,要说分值的含义,只能比较来看。就是说0.2比0.1好一倍。
而且领导还会质疑UM评价的稳定性含义。如果一个人所有行为都一直保持1次这样的最低水平,另一个人行为是几十次的水平,但上下波动。UM结果是第一个人高于第二个人吗?”
小杨:“是的。但是第一个人只要有一次行为是0,或者2,那他的波动就是100%,分数一下就会很低。很难保持高分。”而且从行为频次和UM的数量关系看,相关系数超过0.9。UM和行为频次几乎可以说是非常显著的完全正相关,UM已经包含了行为频次信息。
但是不可否认不能排除上面说的那种可能性,那显然是个不合理的空间。
最根本的坦白说用DAU,行为数这些看得见,摸得着的感官指标考核,我们都知道怎么做。就是推送消息去拉人,制造话题刺激行为,能把每项运营工作跟指标一一对应起来。也许片面的认识更容易引导片面的动作去响应。可你要真拿UM来考核,我一时还真不知道怎么下手去做了。
客观……客观太复杂,真的全面给反映出来,反而……唉,就希望大家都是跟我们差不多吧,真有人跟上这个全面客观的节奏,就糟了。哈哈哈。”
数源思维应归于工程技术,终究是应用之学。应用乃人之用,必须与人的认知和能力相匹配。好比航空发动机,这个被誉为工业皇冠上明珠的产品,其科学原理但凡有像样大学的国家哪个不懂?但能独立做出像样产品来的又有几个?非不知,是不能也。数据,是客观的,也是主观的。
数据要被用户接受,企业要应用好数据,也要做到知行合一,必须要把数据研究成果落实到执行层面,才能有效说服。如果小杨能在UM的帮助下逐渐建立起与其相适应的一套运营办法,或者至少拿出方案,这时再与领导探讨以UM为考评核心,结果可能就会不一样。
本书最后的内容看起来就是一套信息系统,但实际上这并不是一套系统能解决的问题。如果业务不知数据,数据不知业务;上不知下,下不知上;那么连从业务中收集数据来支持战略决策的意识都不会有,更不会有建设这么一套环境感知系统的动力。
即使有了意识之后,还要梳理流程,寻找方法,建立制度,设计体系,最后才会落实到信息系统的开发和应用。所以说信息系统绝不是实现上下通达的原因,而只是实现上下通达的结果和显性化成果。
那什么才是实现上下通达的原因或者说方法呢?
金庸先生的武侠小说里有个最著名的系列,射雕三部曲。在第一部《射雕英雄传》中最厉害的武功是《九阴真经》。原书中周伯通介绍此经是“包含普天下各家各派功夫的武学”,“奇幻奥秘,神妙之极”。这部经书一直贯穿了整个系列。
到了第二部《神雕侠侣》中,最高深的武功自然是真人没出场的独孤求败所创武学。只是独孤求败的武功早已湮没,就剩神雕教杨过使会了独孤四十岁之前所用的玄铁重剑,已是纵横江湖。“重剑无锋,大巧不工”为此剑注解。
而到了第三部《倚天屠龙记》里,最厉害不是一种而是三种武学的组合了,分别是“九阳神功”“乾坤大挪移”“太极拳剑”。这三者分别代表“力”“守”“攻”,三者有一个共同思想就是由武入道,无招无形无为。射雕三部曲的武功从神妙到拙朴再到无为,实则是金庸先生对武学认识的升华,到了太极就已从武学变哲学。
九阳神功固本培元,是力量的源泉。就好比一线业务所产生的数据。
乾坤大挪移是力之导引,套用一句广告语就是“我不生产力,我只是力的搬运工”。就好比数源思维。
太极拳剑融汇内外之力,因势利导,以无为之体千变万化轻松退敌。就好比是相应的数源信息系统。
这三种武功独立来看虽然都是绝学,但三者相互补充,其实缺一不可。如果没有良好运作的一线业务中的数据收集,整个数据应用就是无源之水;如果企业上下缺乏统一的数源思维,则业务、数据与应用相分离,数据非但不能为企业所用,还会成为消耗资源的负担;而如果没有信息系统来落实数源思维,那所有的数据能力将很难有效发挥出来。
因此贯通一线业务、数源思维、信息系统这三者才能上下通达,而其中数源思维是承上启下的关键。
上篇是思维方法的讲解,逻辑是顺序的,内容是故事性的,可以当小说一样逐章顺着看。
下篇是思维指导下的操作实例。整个下篇内容是为解决企业战略制定这一个大问题的,但每一章内容也都是数源思维指导下对具体业务问题的解决方法和过程,都相对独立。因此可以顺序看,从而了解企业战略制定的逻辑和方法;也可以根据需要选择着看,就了解具体业务的解决方法。
看完上篇可以直接看下篇第11章第2节“这书名居然可以这么取?”和第12章第1节“阅尽亿万用户只用一眼”。这两节是严格按照数源思维四步格式写的,方便对照上篇的四步秘籍。
第8章和第13章彼此对照。前者对数源思维解决企业战略问题的框架进行了说明,后者是将9-12章内所述的一线业务分析内容填入框架后进行的分析细化。
第9-12章 分别从各业务部门实际遇到的具体问题出发,在以数据方法解决问题的过程中梳理出来对企业战略决策有用的信息。这些信息都是一股股涓涓细流,最终在第13章里汇聚成战略大江。
问:数源思维怎么帮助到数据分析的工作?
答:数源思维更强调的是,主要掌握的是数据跟业务的障碍克服,以及相结合产生的相应价值。
问:数据分析主要运用什么工具?
答:Python,EXCEL,R语言。
问:现有假设再依据假设找论据,还是先看数据找问题点?
答:这两种情况并不是只能取其一去工作的,先看面对的具体业务情况是什么样的,不是哪一种更好或者采用的更多。而是要根据具体的情况而定,比如类似业务数据监测这类的问题,首先发现的是数据上的问题,然后再从数据上去找这个问题点。
问:如何在工作中重点培养数据逻辑思维?
答:在碰到原始性的业务问题时,要分析它的特征和关键的因素,然后看这个关键因素是否是可衡量的,如果不行的话,就需要对它进行转化,把它对应成一个可衡量客测量的对象,进而就能对新的转化后的问题做数据化的方法。
问:作为数据部门,如何推动数据运用打破和业务之间的隔离墙,提升整个企业的数据运用水平?
答:如果从整个部门沟通的角度来讲的话,数据部门本身需要更加主动去贴近业务部门,作为数据部门没法改变组织架构,或是通过部门职能的划分来影响结果。只能数据部门自己把业务延伸过去,尽量早的了解业务部的工作计划,了解以后就可以根据他们的计划去安排数据部门自己的工作节奏。
End.
分享嘉宾:仓剑(中国统计网特邀嘉宾)
本文为中国统计网原创文章,需要转载请联系中国统计网(小编微信:itongjilove),转载时请注明作者及出处,并保留本文链接。