专栏名称: 朱小厮的博客
著有畅销书:《深入理解Kafka》和《RabbitMQ实战指南》。公众号主要用来分享Java技术栈、Golang技术栈、消息中间件(如Kafka、RabbitMQ)、存储、大数据以及通用型技术架构等相关的技术。
目录
相关文章推荐
CFC农产品研究  ·  【菜系周报】AAFC微调加菜库存,关注菜籽消耗节奏 ·  11 小时前  
中工网  ·  中央一号文件发布,这些人将直接受益! ·  18 小时前  
中国畜牧业协会猪业分会  ·  农业农村部专题研究稳定生猪生产和动物疫病防控工作 ·  3 天前  
微观三农  ·  湖南:提升重大动物疫病防控工作水平 ·  3 天前  
51好读  ›  专栏  ›  朱小厮的博客

滴滴为啥值3600亿?看它的数据中台就知道了

朱小厮的博客  · 公众号  ·  · 2019-12-22 09:51

正文

点击上方“朱小厮的博客”,选择“ 设为星标”

后台回复” 加群 “加入公众号专属技术群



本文主要围绕如下几个部分展开:

  • 滴滴数据中台发展

  • 滴滴精益数据管理体系

  • 滴滴数据系统组成

  • 中台是买不来的


前年阿里开始讲数据中台业务,去年以来这个概念很火直到最近。 我在阿里待了 10 年的时间,也参与了中台建设,今天想跟大家分享一下背后的逻辑,还有我在滴滴的实践,以及中台本质的问题是什么。 任何一个中台,不管是技术中台、AI 中台,本质上为了更好支撑业务,让业务能够更好的去把用户价值做出来。


从技术角度来讲创造价值的核心就是两点:

  • 保证稳定且持续的研发生产,持续输出既有价值。

  • 在生产过程中去找到可以改进的地方,找到新的创新点,创造更大的新价值。


滴滴数据中台发展


看几组数据,这几组数据看起来挺大的,但目的不是为了吹牛逼,目的是为了讲这个东西。

其实滴滴也好,阿里巴巴也好,这些大公司数据都经历了四个阶段,每个阶段有不同的挑战,相信在座的同学不同公司也处于不同的阶段,或者说有可能也走到了这四个阶段的下一次循环。


业务发展驱动数据进化



①业务信息化


其实滴滴很幸运,正好赶上了移动互联网那一波,把个人的位置信息进行信息化了,同时智能手机价格急剧下降,从四五千到几百块钱,任何一个群体都能买到智能手机,最大的核心变革是什么?


你的位置与状态随时随地都在线,这就是完成了第一个核心业务的信息化,滴滴赶上了这波一飞冲天。


②信息数据化

第二波当业务构建起来各个地方有数据被记录下来,如果 10 多年前有同学在做数据,当时肯定会去跟 DBA 吵,你这个数据量太大了,DBA 肯定会说:你删数据吧。


因为以前很多的数据是存在数据库里面的,而从 2006 年开始从记录事务本身到记录过程。

这个背后的核心是什么?背后是逻辑范式的变化,因为有了互联网。互联网之前所有的交流、互动其实是中心节点下面有很多小节点单独跟他沟通。


比如说我去和银行办业务,我去打电话给某一个人都是这样子的,最多一对 N,互相之间是没有别的互动,去银行办各种业务,顾客间是没有互动的。

但是有了互联网之后,所有的节点之间是可以被连通的,所有的节点是可以被连接的,所有的信息从记录的节点上变成了这个信息是记录到边上,这种范式变成了什么呢?


数据的量巨大膨胀,这个时候面临最大的问题是算不动存不了,包括我们在讲很多的实时计算也是一样的道理。


随着我们的业务发展、人是需要实时进行反馈,那就意味着实时计算需要的计算能力和存储能力变成更大的问题,当信息变成数据化之后一定会有这样的情况。

当有更多的数据被记录下来的时候,数据不再仅仅是 BI,意味着每个人开始去用数据,每个人用的数据很有可能自己产生的结果,同时是别人的输入。


这个时候就意味着一张公司里的数据网开始在编制起来,或者说最简单的数据链条在编制起来。

这个时候会出现很多扯皮的事情了,上游说自己解决自己问题,数据的问题是自己用的,为什么要给你用?


你依赖我的数据就依赖,出问题我不负责。被依赖很多上游说要改一个东西,下游说不能改,你改了,所有的代码也得改。

上游说不改怎么行呢,上面的业务要变。这个时候数据用的越多,扯皮事情就越来越多,为什么会扯皮呢?


不是大家有什么问题,而是公司里面没有数据的文化,我们核心判断这件事情谁对谁错的价值观,背后唯一判断标准是什么呢?


很多公司是没有的,因为数据越多,产生出来的各种扯皮就出现了。


③数据资产化

这样就到第三个阶段,每个地方都有大量的数据,每个业务都在消费大量的数据。


广告业务、运营、财务、现在还有越来越多的算法、人工智能,各个地方都在用数据,每个部门都有数据,每个部门都有自己的数据团队,这个时候开始烟囱林立。

有些时候数据在一个地方用的好,可能在别的地方用的不好。当年在阿里的时候,2012 年左右的时候最大的问题,怎么把消费者的数据打通。


因为不同的业务环节里面同一个消费者 ID 可能都不一样,到滴滴后来也面临同样的问题,快车、顺风车、出租车快速的发展,从来没有考虑过数据打通问题。


每个部门都觉得数据是自己的私产,我对这个数据质量保证只为自己负责。数据资产从公司角度来讲它是没有被盘点的,只在点上产生价值。

在滴滴我们是面临强监管的公司,可能在别的公司大家没有受到这么强的监管。


所以数据本身的安全合规对于我们讲是非常重要的事情,还好 2017 年加入到滴滴,对这件事情的重视程度比较高,第一个解决了隐私数据的处理,第二个数据分级管控,第三个数据的安全打标,还有关键的权限管理。


最近我跑的公司也比较多,发现做一些互联网金融类的公司内部的数据都没有做权限管理,这是非常恐怖的一件事情。


第三个一定得有对应的安全合规管控,这样公司才能走的长久,不然数据做的越大,很有可能就成为公司归零的大风险。

第三个是数据资产面临一个问题,可能这个资产在很久之前很多咨询公司会讲一个东西叫做数据治理。


包括像最近的 G20 各个政府的首脑也提到这个问题,数据越来越重要,数据需要流动起来才能产生价值,如果不把它标准化好,数据的价值是很难打通的。

但是我们可以发现很多的企业去做数据治理的时候,这个项目都是无疾而终,或者做了项目很好,但是用着用着这个数据又不行了,不得不过一段时间又提一个大项目劳民伤财去做这件事情,背后本质上的问题是什么呢?


为什么数据治理这件事情这么困难,投入这么大资金去做,但是产出却很少,而且数据是越治一会儿又难用了,能不能让这个数据越用越好用呢?我们发现背后还是一些本质上的东西去用的。


我们都在讲用大数据去赋能别人,大数据去做广告,大数据去赋能 AI,让 AI 更高效解决各种问题。


但我们有没有想过我们用数据能治理自己本身呢?这也是我们当时的思考。


我们重要核心问题在数据资产化这个阶段要解决两个问题:
  • 数据质量混乱的问题。

  • 高投入低产出问题,我好像做了标准化的事情,做了治理的事情,好像不太管用。


最后,当数据梳理通顺了,这个资产在公司里面流动起来,大概在 2018 年左右滴滴所有的数据在内部都是开放的。


当然是分等级的,需要走相应的合规申请流程,每一个人经过相应的安全申请都能获得所有的数据,相应的合规数据都能做查询、分析,甚至做研发。


④资产变现化

这样的情况我们作用到第四个阶段,怎么样把数据的价值最大化?怎么样变现?

现在我们来看一下主要三个方面:


一个是赋能人, 让数据的门槛下降,让每一个人都能把数据用起来,这是我们背后非常难的理念。


在座各位很多都在做各种各样数据产品,有的是面向于工程师,有的面向分析师,但我们希望是整个数据平台体系能让公司所有的人在他需要的时候把数据用起来,把数据做到平民化。

第二个现在越来越多系统应用是数据密集型的, 再往下一步走是数据智能化的,需要有算法、规则、数据来反馈这样的应用系统,数据必须把它服务化,去和前台的业务集成打通。

第三个滴滴是一个非常依赖数据的公司, 后面我会讲为什么,绝大部分业务是靠算法来去驱动的。


所以算法需要的大量特征本质上就是来源于中台数据再次加工,怎么能够更好赋能 AI?这也是变现里面第三个难题。

滴滴究竟在数据方面和传统的互联网或者说 BATJ 这样的公司有什么样的不同?


左边这个图是工业领域常用的东西叫做资源投入和业务价值产出的微笑曲线,当一个公司在两头进行投入,同样投入产出会更高,公司在研发、实验、营销、运营。


其实,前面的很多同学分享都提到这一点,我们去做营销投入一块钱到工程师那儿,我们能通过广告收回来多少钱。

即便没有广告平台,投入到自己的营销上面拉了更多新客也会赚更多的钱,投入到研发也会让产品竞争力更高,赚更多的钱。


但滴滴有点不一样,我们除了在研发实验投入资源产出的效益很高之外,我们在营销领域产出并不高,我们更多是要把它投入到生产领域。

在日本精益思想里面,他们说了日本企业和中国企业最大的区别是什么?中国企业只知道在微笑的两端引进新技术获得增长,但不知道把中间这块进行更好的管理,把微笑曲线变成武藏曲线。


这是一家日本企业都能活的很好很久的原因,他们把曲线拉的更平,从研发、实验、生产、运营、营销各个环节都能做到很好的竞争力。

为什么滴滴微笑曲线会是这样呢?任何一家大型互联网公司本质上是这两个商业模型的内核双轮驱动,网络效应和数据智能。

而且往往是网络效应是大于数据智能,但是滴滴却是反着的,本身这个平台没有太大的网络效应,乘客与乘客之间是不互动的,司机与司机也是不互动的。


司机和乘客之间的连接是靠当时的时刻和那个时间节点上空间正好能匹配,系统硬拉在一起的。


我们没有太多的网络效应,我们只有规模效应,乘客越多可能会吸引司机一下,司机说你这儿好拉活。


司机越多可能会吸引乘客一下,这块我打车的概率也高一点,但本质上这个护城河很低。

我们在这儿是没有商业模式护城河,唯一一个护城河是来自于数据智能,怎么样通过更好的算法找到更好的匹配,怎么去做供需的预测,怎么去做调度,怎么去做时间的分配,怎么去鼓励司机在什么样的情况下往哪个方向去。


我们在每一个出行环节里面我们都需要用数据进去结合起相应的算法,把这个效率做到最高。


所以从这个角度来讲在滴滴去做数据平台或者做数据中后台工作压力非常大的。因为整个公司的护城河是依赖数据的,网络效应在我们这儿是大大缩小。


中台数据体系建设的核心困难


我们再看一下为什么在滴滴中台数据体系建设这么困难?数据其实是要在两条价值线上去发挥价值。


第一个每天日常生产价值线,每天业务要保障正常运转,要从一个状态变到另一个状态,用户进来要从一个业务做完,要稳定的生产,让我们客户能打到车,这里面很多的算法通过数据,生产加工到最后产生价值。

这里面随时随地在提三个词,质量、效率、成本,因为我们没有大规模的网络效应,我们依赖网络效应去做创新的空间没有那么大,我们只能在各个业务的环节,用数据去发现这样的效率增加的地方,或者在里面去做模式的挖掘。

这样对于数据来去驱动创新的压力更大了,我们可能不像抖音,或者是说不像淘宝,我们可以做一个消费者靠主观感受发现有哪些模式可以把网络效应激发出来。


对于我们来讲必须用数据看整个滴滴出行网络里面有些什么样的模式,有些什么样的问题,有些什么样关联的情况能够被我们发现出来,有哪些 idea 去做实验,一堆筛选以后找到一个真正产生正价值的 idea。

每个这样的想法要通过大量的数据分析、数据驱动的方式,才能最终融入到数据生产价值线来。 这个时候对于数据平台团队来讲意味着很纠结了,一条线要求稳定。


另外一条线要求数据质量高情况下还要快速,必须得尽快把相应的数据支援到我,你希望把很多没有稳定下的数据业务背后的数据支援到我,这是非常困难的一件事情。

因为滴滴把竞争力放在了数据智能这块,意味着我们是互联企业里面对于数据场景使用最多的一个企业了。


总结了一下大概有 13 个主要数据使用场景,从最简单的看报表、临时分析、做对比,再去做相应的聚类分析,再去做模式挖掘,再去做算法、人工智能驱动,每一个环节需要大量的数据和平台支撑它。

另外,用的场景越多,涉及到的链路越复杂,这个背后代表的是团队,大家知道了人多了就有江湖,有了江湖很多事情就很麻烦,组织上我们会面临巨大的困难。


两个不同的目标,这么多的场景,这么多的组织在一起,这时我们需要支撑 6 个最大业务场景的人员,数据工程人员,业务分析的人员,产品研发的人员,数据科学的人员,人工智能,其实背后还有一个财务。

每个人的诉求都不一样,每个人在数据链条的环节都不一样,他们每一个人的能量也不一样,所以做一个数据平台团队是如履薄冰,我们面临非常大的困难。


我们怎么来解呢?因为滴滴和车有关系,我们背后是这么复杂的,这条链是稳定的高质量数据交付,在整个全世界的生产制造环节里面,什么样的链式制造在哪个行业里面最复杂、最稳定的呢?


是汽车制造行业。在这里面做的最好的是丰田,我们就借鉴了丰田精益制造的理念,以它为基础变成了我们精益数据的管理体系。

首先我们定义目标,我们究竟做数据平台的目的是什么,是要处理更多的数据,还是要算的更快,还是说出各种各样很好看的报表。


我们认为最核心的是高价值、高可靠、高效率、低成本、少浪费的做数据服务的交付。


我们不一定做应用,不一定自己去拿到很好的业务效果,但是我们关键是要把数据赋能业务的同学,把数据的价值交付出去。

基于这样的目标,我们认为最关键的点首先要有文化,不然组织间的摩擦会有很大。


这个东西也是和滴滴高层管理一起往下推,从庙堂和江湖之间一起去发力。


关键的两个:一个是持续改进,我们认为数据平台、数据体系或者数据中台不是一天能够建成的,也不是一个大项目做了数据治理,做了数据资产管理,这事就完事了。


很多企业,尤其是传统产业企业领导觉得数据这件事情交给 CIO 或者数据平台的领导者就好了,把这个数据弄好,后面就好了,其实不是这样子的。


数据是跟着业务在发展和生产的,必须得持续改进才能跟上业务的节奏。

数据本质上背后是人,人用数据,人开发的 AI 用数据,我们必须得尊重人,尊重人是什么样的意思?


尊重人的创意,我们应该让每一个人都有机会平等用上数据,所以要把这个门槛降到最低。

第二个数据的链路里面涉及到的方方面面各种各样的人,我们一定要让每一个链路中的人意识到,你做的任何一件事情都有可能会影响到上游或者下游,那核心价值观是不要给别人添麻烦,客户第一。


以这个为基础的价值观遇到很多问题的时候,我们就回到这样的初心,再来看怎么做持续改进。

滴滴精益数据管理体系


基于这样的数据文化,我们去做了精益的数据生产的体系,我们把它总结为以价值链来拉动。

在滴滴梳理出来了将近 2000 多条数据生产的链条一路,从数据的采集再到数据的使用,经过这样的梳理来判断哪些数据产生的价值更大,哪些数据的影响面更广。


基于这样的数据价值链我们就做了下面相应的工作,很多是像丰田生产流水线学习的。

第一个是分级, 我们认为不可能把所有的数据问题用所有的精力解决掉,这也是不现实的,或者这个是浪费。

精益里面最关键一点是减少浪费,把所有的东西用同样的方式做同样的处理,所以第一个分级,对数据做了 T1、T2、T3 的分级。

第二个监控, 我们必须实时知道这个数据在怎么被加工处理,进入的情况是什么样的,产出的情况是什么样的,加工处理过程中间的产出各种日志是什么样的。


在《管理》那本书里要提到要控制好任何一个生产线的质量,最关键的就是持续统计管理。在生产过程中任何数据都被统计下来,来发现这里面的问题。

第三个复盘, 有了监控之后知道系统里面会出现哪些问题、变化,每一个这样的异常、变化和问题都会有一个小组召开相应的复盘。

从 2017 年 4 月份到 2019 年 1 月份做了 150 多次的复盘,复盘率超过了 89%,相应每一次复盘对于系统的改进都是巨大的。


最后把复盘得到的从人员、流程、系统上得到改进的方案,通过系统的方式把它给沉淀下来。


我们认为只有通过自动化的方式,才能真正的去落地规范,才能真正落地文化和流程。


所以说在自动里面用了一个日文字,我们认为这个“働”,不仅仅是要流程串在一起,有一个程序让它跑起来就行了,这里面需要人参与的。


人在这里面持续迭代更新它,人是最聪明的,以及现在人还可以做出人工智能来替它更高效优化。

另外一条支柱我们有了稳定的数据生产链,我们有方法可以让它持续稳定下来之后,另外开始着手建立数据创新的体系。


我们从哪儿去借鉴呢?这 20 多年来敏捷的软件开发就在我们身边,我们完完全全可以借鉴这套,包括从五年前开始火起来的 DevOps。


我认为是数据体系需要认认真真去学习这个方法论,而不是有些时候过于强调数据工程的独特性。


我们把数据工程很多处理的方式归结为 ETL 模型,但是随着现在越来越多的应用随着数据驱动,大家现在看到数据实时计算平台非常火热,本质上是前台的业务需要数据实时反馈来驱动它。


也就是说,大量的数据工程本身就应该是和业务的应用,用一套方法论体系,一套软件工程体系去构建。

这样才能让一个公司的软件开发人员能够更快速的去交付相应的软件价值,不然一个公司里面会越来越臃肿。


从这个角度来讲我们去认认真真把软件工程去看了一遍,创新要容忍混乱,混乱来自什么?

或者换句话说叫活力,活力来自于连接,连接越多活力越大,所以我们构建一个创新网,把整个数据平台采集到的各种各样数据, 以及数据在加工处理过程中,以及数据流动处理过程中间再次沉淀下来的数据,我们都把它记录下来,以及产生这个数据的物和人,也记录下来,从而形成了背后数据的知识图谱。

我们知道这个数据从哪儿来到哪儿去,被什么人来使用,使用的过程是什么样的,使用的反馈是什么样的,使用完之后沉淀下来的感悟是什么样的,比如说分析方法论是什么样的,数据工程师使用这个数据发现的问题是什么?

我们把这些东西都沉淀下来,并且和内部的效能工具做打通,和运维数据做打通,和财务系统做打通,去和各种各样的流程审批系统做打通,这样构建了数据创新的网络。

我们再把相应的用户群进行分层,我们认为一部分人是直接用数据的,所以说把这个定义成用结果,这里面就是传统的报表体系。

我们为了把报表的东西做到更敏捷,我们做了一个什么事呢?我们发现公司很多的用户不需要把它做的太漂亮,尤其是一线员工,更多是看数据来反馈前几天的系统和系统上实时操作的结果是什么样子的。


其实有自己的办法去做相应的可视化分析,我们把很多的报表再做了简化,我们认为不用发很多可视化报表,就把它数据模板化就好了,并且给他一定的灵活性,第二步自配置。


我们现在每天可以产生 600 多个分析的小模板,来自于各个业务方向,复盘、实验、测试,大家可以想到背后什么,每一个一线业务同学,不管是产品还是运营,都在用数据驱动它做任何改进的事情,滴滴的创新就这样起来。

第三个模仿做,这里面代表的思想是什么?一切皆代码,很多情况下你要模仿别人做一个东西,你看花花绿绿的东西,你不知道背后的东西是什么,其实是很难模仿的。


我们尽可能在数据分析这一块,把数据背后分析的代码都开放给用户。比如说我看到这样的数据结果,我会让它找到背后分析的代码是什么,我看到这个报表,我会告诉他背后分析的 DSL 是什么。


这样一些高阶的用户基于代码更快速的理解背后的逻辑是什么,进一步模仿可以去做。


这样会让我们很多中低阶的同学,在这块技能不是那么丰富的同学可以做一些偏高阶的工作,降低成本,提升效率。

最后自主化,我们通过对于前面精益数据生产链路,去彻底打通数据从采集、加工、预处理、分析和系统对接再到服务化,我们打通了整个流程环节,任何一个稍微懂一点数据的同学,就能完成从数据的接入,再到数据的处理。


这样不会有很多的数据门槛,不需要一个同学要去做分析的时候,要去做数据探索的时候,需要有相应的工程师同学去配合他,才能完成相应的动作。

基于这样的方法论,我们就去开发数据系统的工具链,这个工具链要达到前面的分级监控、复盘和自动化,要去能够让大家各个层面上方便降门槛去用数据。


在这里面产品设计秉承核心的方法论,第一个数据要越用越好用,要把数据引入到产品设计中驱动产品设计的优化。


第二个目标是让尽可能多的人能够把数据用起来,所以数据工具之间必须去做强打通,让每一个人都能完成数据处理工作,这是产品设计的核心方法论,我们还通过相应的指标体系来去衡量是否在往这个方向去发展。

数据基础设施,还是基于开源的体系来去做。基于这样的方式做了两年,2017 年 4 月份加入到滴滴,第二天就出了很大的故障。


从那个时候开始一直到年底基本上每周两次,每天晚上被短信吵起来很多次,我下面的几十号兄弟每天都得起来好几次。

滴滴数据系统组成



我们有了这套东西我们持续改正之后,从用户价值来讲每个 Q 都会做 NPS 调研,打 8 分、9 分、10 分的人减去打 1 分、2 分的人,打 5、6 分的人我们不认为他满意。


这个是非常苛刻的,很多公司很多产品 NPS 能做到 30% 是不错了,从 2017 年的 4 月份 19% 还诟病比较多的,到最近的一次调研做到 60%。

在相应的数据生产这一块,事故从一年十几次其实是二十次到去年可能只发生了一次。


我们核心的数据产出时间最晚的处理时间已经提前到了 5 点,我们把所有数据采集的生产链路实时化,根据后面的用户需要来选择究竟是实时还是准实时,还是小时,还是按天。

另外,我们创新体系里面有一个衡量的指标,我们的同事每天都在问很多问题,这些代表在思考解决很多新问题,可能在组合很多情况去解决复杂问题,我们认为这都在做微创新,从两天任务变到了 2 万个,有了十倍的增加。

为了把这两套体系连接起来,发挥更大的作用,我们构建的智能数据目录,相当于每周会有 20% 的员工在高频的使用。


相当于 20% 的员工在去找公司里面有哪些数据可以帮助到他做各种各样业务的问题,目前也在系统性对外进行输出。







请到「今天看啥」查看全文