本期聊一聊《华为数据之道》与《华为数字化转型之道》第十一章的内容:统一的数据底座。
先说一下整体阅读感受:《华为数字化转型之道》中统一的数据底座是从业务和数字化转型整体策略的角度简略阐述了数据在企业数字化中的重要性,以及数据底座的基本建设框架与思路。而《华为数据之道》则是专门编写的华为在数据建设、数据治理方面的建设思路和方法,更为详细与落地。
书中重点提及了华为数据工作的目标: 清洁、透明、智慧数据,使能卓越运营和有效增长。 围绕这一目标,全书展开了非常详实的叙述。
本文将着重围绕 “清洁的数据” ,结合文中内容与实际工作中遇到的问题,与大家展开探讨。不足之处,欢迎指正!
当我们在谈数据清洁时
数据清洁实际上是数据治理中“数据质量”管理范畴的问题,如果我们将数据流比作水流,那么我们需要全程关注水流的清洁程度,才能保证饮水之人喝到干净卫生的水。
同样,当我们在谈清洁的数据时,我们在谈:数据源头是否干净、数据流通过程中有没有遭到污染、数据在每一个阶段的清洁程度怎么样、数据被使用后使用方是否健康、数据遭到污染后如何处理、如何评判数据的清洁程度......这就涉及到一系列的关于“清洁数据”的质量管理问题了。
《华为数据之道》在第八章中对以上问题进行了非常详细的阐述,往下看!
华为认为数据质量不是追求100%,而是从业务使用者的角度定义,满足业务、用户需求的数据即为“好”数据,即“数据满足应用的可信程度”。
而数据满足应用的可信程度又可以从:完整性、及时性、准确性、一致性、唯一性和有效性六个维度来衡量。与目前市面上的数据质量衡量维度基本不谋而合,但具体怎么衡量呢?需要结合数据质量度量机制一起来看。
华为的数据质量度量模型由设计质量(占40%)和执行质量(占60%)两个部分组成,这也意味着数据在执行和流通过程中产生质量问题的可能性是更大的,正如书中所言: 只要涉及到人工干预,总会存在数据质量的问题。
也因此,整个数据质量管理规范及度量几乎是对人在数据作业流程中的行为进行的规范,也可以说是“数据工作人员作业规范与指南”。
图片来源于《华为数据之道》
1、设计质量的度量
华为从数据资产目录、数据标准、数据模型和数据分布四个维度对数据的设计质量进行度量。简而言之,就是所有数据在设计时就要符合数据质量管理的要求,确保了数据源头的清洁度。
图片来源于《华 为数据之道》
这一规定非常适合新数据的生产,那么老数据呢?对于很多企业而言,老数据的质量管理才是更令人头疼的问题。
书中并没有单独的章节对老数据的清洁进行讲解,根据8.3.4质量改进一节的内容,笔者认为老数据的清洁实际上是指“数据质量的改善”,即改进目前的数据质量,使其在原有的基础上有突破性地提高。
2、执行质量的度量
华为对执行质量度量主要是从数据质量六性(一致性、完整性、及时性、唯一性、有效性、准确性)评估数据内容的清洁度,涉及三个要素:客户关注重要性、法律财务风险性、业务流程战略性。(本处与上一节“02清洁数据的定义”可以对应起来看)。
本节书中并未如设计质量一样围绕质量六性给出统一的度量标准,而是主要讲述了度量的流程和方法,因此笔者推断对于执行质量的度量,需业务方参与共同制定不同业务单元的数据执行质量度量维度和标准。
如果从这个角度而言,那么企业内部将会拥有各种各样的不同业务的数据质量评价维度和标准,从整个数据部门综合视角而言,将不利于统一的管理和进行业务间的数据质量对比。此为书中一点缺憾!
只要数据存在,就需要数据质量管理,因此,数据清洁是一个需要长期净化的事情。
华为的PDCA数据质量管理框架,从业务需求出发,经过数据能力保障的维持或者改善,最终触达用户,获取用户满意度反馈,形成数据提升和优化计划,持续进行数据清洁和维持数据洁净,使之成为一个良性的闭环。
图片来源于《华 为数据之道》
--
当然,以上所有数据质量管理规范和方法都离不开人的遵守与执行,也因此书中也重点提及了数据owner、数据管家、数据管理委员会等人员的重要性与其职责范围,以确保数据质量在执行过程中顺利有效地进行。
正如我们先前写过的一篇文章 《数据治理的本质是“治人”》 ,虽略带调侃,却也不失为目前大部分企业在数据治理与数据质量管理中的关键难题。
看完全书,笔者以为华为的数据清洁方法写的非常详实且具体,对流程、细节、注意事项也均做了周到的说明。唯一不足的地方是,没有一个从头到尾完整的数据清洁的案例可供参考,微微有点遗憾!
也因此,本文以“清洁的数据:说到容易,做到难”为题,希望能看到真正做到数据清洁的行业案例。
值得肯定的是,作为目前行业内企业数据化和数字化转型的参考书目,《华为数据之道》和《华为数字化转型之道》已经算得上是上品了,值得拜读!