专栏名称: 老司机聊数据
互联网+行业,数字化落地,包含IT数据管理、数据资产、数据应用、最佳企业数据案例实践分享等
目录
相关文章推荐
51好读  ›  专栏  ›  老司机聊数据

数据血缘的5种类型,你知道吗

老司机聊数据  · 公众号  ·  · 2024-09-15 22:00

正文

请到「今天看啥」查看全文


数据血缘分析原理与实践



数据在产生与使用的过程中,会出现各种各样的问题,我们会针对这些进行治理。例如针对数据的准确性、数据变更情况、数据到底产生了多少价值、数据安全性是否可以得到保障等等,本文阐述数据血缘分析解决在数据治理过程中是如何解决这些问题的。 今日继续分享 《数据血缘分析原理与实践》 新书经典章节内容: 数据血缘的 五种类型


一、 逻辑血缘

逻辑血缘(Logical lineage):逻辑血缘描述的是数据在逻辑上的关系,例如数据之间的计算逻辑、逻辑表达式、数据流程等。逻辑血缘通常被用于描述数据转换和处理过程中的数据依赖关系。
逻辑血缘用于描述数据处理过程中的计算规则和依赖关系,帮助我们更好地理解数据处理的过程和结果。可以帮助我们了解数据在数据处理过程中的计算规则和依赖关系。
数据清洗和转换过程中,逻辑血缘可以用来确定特定派生数据元素是如何计算而来的。一个简单的逻辑血缘案例是一个数学公式,例如y = 2 * x + 3,其中y是根据x计算得出的。在这个例子中,逻辑血缘描述了y和x之间的计算关系。


二、 物理血缘

物理血缘(Physical lineage):物理血缘是指数据元素在计算机系统中存储和移动的路径,如文件、表格、列和行之间的关系。物理血缘通常是通过对数据存储和处理系统进行跟踪和记录实现的。通过描述数据在物理存储层面上的关系,能帮助我们更好地跟踪数据在不同系统和组件之间的传输和转换过程。
例如,在数据仓库中,物理血缘可以用来确定特定派生数据元素存储在哪个数据表中。另外一个简单的物理血缘案例是一个数据从数据库中读取出来,并存储到本地磁盘上。在这个例子中,物理血缘描述了数据在数据库和本地磁盘之间的传输过程。

三、 时间血缘

时间血缘(Temporal lineage):时间血缘是指数据元素的时间依赖关系,如数据元素的创建、修改和访问时间。时间血缘可以用来确定数据元素的有效期,并且可以帮助追踪数据中的时间戳问题。
例如,在金融领域,时间血缘可以用来追踪股票价格的变化。大部分数据管理也是基于时间血缘进行维护,一个数据从创建到修改再到删除的整个生命周期。在这两个例子中,时间血缘描述了数据的创建时间、修改时间和删除时间。

四、操作血缘

操作血缘(Operational lineage):操作血缘是指数据元素之间的操作关系,如数据元素的创建、更新和删除操作。操作血缘可以帮助跟踪数据的修改历史,并支持数据审计和合规性检查。 例如,在医疗领域,操作血缘可以用来追踪病人记录的修改历史。 通过记录数据处理过程中的每个步骤和操作,帮助我们更好地跟踪数据的处理过程和结果。

五、操作血缘

业务血缘(Business lineage):业务血缘是指数据元素在业务流程中的传递和使用关系。业务血缘可以用来帮助理解数据元素在业务流程中的重要性,以及数据元素的质量对业务流程的影响。例如,在电信领域,业务血缘可以用来追踪客户的电话使用记录。销售订单涉及的产品和客户信息,其中订单与产品和客户之间有关联关系。在这个例子中,业务血缘描述了订单、产品和客户之间的关联关系。 整体来讲我们可以依据不同的数据血缘分类目的和应用场景,按照以下几个方面进行划分:
数据元素类型: 数据元素可以是文件、表格、列、行、字段或记录等不同的类型,不同类型的数据元素可能需要不同类型的血缘进行跟踪和记录。
数据处理方式: 数据处理方式可以是ETL(Extract-Transform-Load)工具、编程语言、数据库查询、数据挖掘等不同的方式,不同的处理方式可能需要不同类型的血缘进行跟踪和记录。
数据处理环境: 数据处理环境可以是本地计算机、云计算环境、分布式计算环境等不同的环境,不同的处理环境可能需要不同类型的血缘进行跟踪和记录。
应用场景和需求: 不同的应用场景和需求可能需要不同类型的血缘来支持数据分析和决策,例如需要追踪数据的修改历史、追踪数据在业务流程中的传递和使用关系等。
需要注意的是,实际应用中这些血缘类型不是相互独立的,它们之间可能存在交叉和重叠的部分。例如,物理血缘和时间血缘可能同时记录数据元素在系统中的存储路径和时间戳信息。因此,在实际应用中,需要根据具体需求和应用场景选择和组合不同类型的血缘来支持数据分析和决策。

文章节选来自《数据血缘分析原理与实践》


01 方法实践

> 一文讲透数据治理难点与应对策略(建议收藏)

> 数据治理项目为什么会失败【深度剖析】

> 数据血缘分析~全网最全原创精华(建议收藏)

> 关于SAP-MDG的主数据治理理论概述

> 区块链技术对数据治理的一些思考及启发

> 主数据治理工作八大难点

> 浅谈数据分析中的数据清洗方法策略

> 数据资产入表难点解析(三)【数据质量提升】

> 数据资产入表难点解析(二)【数据确权】

> 数据资产入表难点解析(一)【数据定价】

> 全国一体化政务大数据体系建设指南(建议收藏)


02 观点分析


更多优质内容,持续输出中~

新书发售 👇

《数据血缘分析原理与实践》







请到「今天看啥」查看全文