专栏名称: 老司机聊数据
互联网+行业,数字化落地,包含IT数据管理、数据资产、数据应用、最佳企业数据案例实践分享等
目录
相关文章推荐
51好读  ›  专栏  ›  老司机聊数据

一文读懂数据血缘分析原理与建设方法

老司机聊数据  · 公众号  ·  · 2024-07-15 07:00

正文

请到「今天看啥」查看全文


前言



有幸拜读成于念&赛助力老师的 《数据血缘分析原理与实践》 一书,对数据血缘这一概念与分析方法有了更充分的了解,无疑对企业数据建设、分析、数据治理等工作具有颇多指导意义。同时,对数据思维和数据大局观的锻炼,又提供了一种全新的视角,受益良多。

本文结合书中内容,对整本书的前半部分做简要概览, 以帮助大家更好了解数据血缘分析及其建设方法。

01
什么是数据血缘分析?
数据血缘为数据全生命周期过程中的数据关系,包括数据特征的变化,即数据的来龙去脉。主要内容包括数据的来源、数据的加工方式、映射关系以及数据的流出和消费。数据血缘分析就是针对数据分析中的血缘关系做分析,主要包含 数据来源分析、 数据血缘影响分析和 数据全链条分析三个部分。


02
数据血缘的特征有哪些?
① 稳定性: 一旦数据血缘关系收集完毕,通常不会再有大的变化
② 归属性: 即便数据从生产端流向消费端,数据的归属关系依然存在
③ 多源性: 一个数据可以来自一个或者多个数据源,也可以由多个数据源组合而成
④ 可追溯性: 数据从产生到消亡的整个生命周期都可以直观地记录和查询,进行追溯
⑤ 层次性: 层次性主要体现在数据的分类、归纳和总结过程中,构成层次结构

03
数据血缘的重要性
1、破除数据质疑
数据血缘分析技术可大大提升数据排查效率,让用户自主对数据来源以及链路进行检查,直观地发现数据生产链路各环节有无异常,快速打消终端用户对报告数据可靠性的怀疑。

2、 快速评估数据变更影响范围
数据血缘可以对数据对象和数据流与数据图的连接进行可视化,以帮助数据架构师预测移动或更改数据将对数据本身及其下游流程和应用程序产生哪些影响,同时让整个流程的验证和更改也变得更加容易。

3、度量数据资产价值评估
数据血缘可以作为数据资产价值评估的一个度量工具,将原始数据、数据资源到数据产品、数据资产的过程进行量化和显现,如数据成本的记录、数据资产的登记、数据资产化进度追踪等。

4、为数据滥用加上“道德枷锁”
通过数据血缘的追踪,我们能确认数据的源头、OWNER和数据的流向,同时提供采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的具体信息,有利于数据确权后避免滥用的情况发生。

04
数据血缘的组成部分
1、元数据
元数据是最基本的数据单元, 更多是描述数据的数据, 比如身份证号码,数字类型是18位,前两位是省代码,后面几位是出生年月日,这些确定身份证号码是怎么来的数据即是 数据, 元数据就像是组成数据血缘的基本元素,也可以说是构成数据血缘的编码规则或体系。

2、主数据
主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据,比如,可以是与客户、供应商、账户以及组织单位相关的数据。主数据的价值之一”统一数据标准、统一口径“对于数据血缘分析至关重要,如果缺乏主数据标准管理,数据血缘的流向以及关联的字段极有可能是错误的。

3、业务数据
业务数据是指由企业在业务处理过程中产生的数据,也称交易数据。包括订单合同,营销价格等。数据血缘在业务数据监测与问题定位、数据交圈起到了可追溯可视化的作用,大大提升了业务数据的质量问题。

4、指标数据
指标数据是基础数据按照一定业务规则或一系列公式计算加工得出的数据指标,它具有高价值性,更贴近业务场景的特点,代表着数据的最终业务价值呈现。通过数据血缘分析可以满足查看指标数据拆解过程、体现指标数据计算规则、展示指标数据的多源效果。

05
数据血缘的建设
数据血缘的建设贯穿了数据的全生命周期,通过一个周期、三种实体、五个类型、五个层级进行整体框架的规划和设计,同时,通过选择合适的数据建设方式,按照数据血缘建设六步曲进行建设。

一个周期: 即数据的全生命周期,包括数据采集生产、数据加工、数据传输、数据 使用消费、数据失效。

三种实体: 即数据的颗粒度结构,它们构成了数据血缘的实体结构,包括数据库血缘、数据表血缘、表字段血缘。

五个类型: 即数据血缘的五种类型,包括逻辑血缘、物理血缘、时间血缘、操作血缘和业务血缘。

五个层级: 即数据血缘在全链路实现过程中所贯穿的各层级,包括血缘采集层、血缘处理层、血缘存储层、血缘接口层、血缘应用层。

数据血缘的建设方法

当前主流的数据血缘建设方法有采用开源系统建立数据血缘、引进厂商平台建立数据血缘、选择自建方式建立数据血缘三种方式。每家企业对于建设方式的选择各有不同,主要是由于企业资金投入、内部人员技术水平、人力资源投入等的不同等因素决定的。

数据血缘建设六步曲

数据血缘根据建设是进行数据血缘管理的前提,数据血缘工具需要具备数据从属谁、在 何时、在何地、为什么和如何更改数据的问题。 一个完整的数据血缘项目都应包含以下六大步骤:

诚如作者所说,数据血缘不仅仅是一种技术和方法,更是一种数据思维,它能够让我们更深层次理解数据、建设数据、治理数据、运营数据!

- END -

原创不易,喜欢内容就点个赞吧!❤

01 方法实践

> 一文讲透数据治理难点与应对策略(建议收藏)

> 数据治理项目为什么会失败【深度剖析】

> 数据血缘分析~全网最全原创精华(建议收藏)

> 关于SAP-MDG的主数据治理理论概述

> 区块链技术对数据治理的一些思考及启发

> 主数据治理工作八大难点

> 浅谈数据分析中的数据清洗方法策略

> 数据资产入表难点解析(三)【数据质量提升】

> 数据资产入表难点解析(二)【数据确权】

> 数据资产入表难点解析(一)【数据定价】

> 全国一体化政务大数据体系建设指南(建议收藏)


02 观点分析


更多优质内容,持续输出中~

新书发售👇

听说你也是做数据的? 👇








请到「今天看啥」查看全文