专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
点拾投资  ·  投资大家谈 | 景顺长城科技军团2月观点 ·  21 小时前  
柳州晚报  ·  最新!国企回应:不存在违规操作! ·  昨天  
创伙伴  ·  欢迎你也加入创伙伴知识星球 ·  昨天  
51好读  ›  专栏  ›  DataFunTalk

如何平衡数据质量合规性与业务需求的快速响应?在业务的不同发展阶段

DataFunTalk  · 公众号  ·  · 2024-11-17 13:00

正文

本文节选自数据治理技术成熟度曲线发布会圆桌整理文档,本圆桌由字节、京东、滴滴与京东方的专家参与讨论。

李然辉老师

依据国际DAMM认证成熟度评估体系,我公司目前的定位是度量级阶段,并正积极向持续优化阶段迈进。我们所建立的制度和规范已经相当成熟,实际落地率大约为80%,基本上实现了流程化管理。在产品化、制度化以及自动化方面,我们目前处于这样的发展阶段。之所以说我们处于可量化级,是因为我们构建了一套全面的数据资产管理指标体系,它允许我们在网络平台上进行评估。这套体系在各个方面都有可量化的表现,并且形成了我们自己的决策支持系统。它使我们能够及时对风险进行预警,因此对我们来说极为重要。

随着技术发展,我们又面临着新的挑战。以人工智能为例,特别是大模型的应用,对数据的质量和安全性提出了新的考验。深度人工智能的实现,需要更为全面的数据治理。我们的新数据治理策略必须考虑到数据质量和隐私保护的问题,因为涉及到整个外部环境,我们需要构建大模型,并依赖于交互式的数据输入和输出,只有在这些方面做好准备,我们才能实现负责任的人工智能。然而,从当前的实际情况来看,孤立的数据源以及缺乏有效的数据集成策略,对生成式人工智能构成了挑战。从数据的采集、存储、查询到分析和可视化,每一步骤都需要一个端到端的数据治理策略,这对于企业而言至关重要。

关于如何平衡质量安全与数据需求的快速响应,我的看法如下:安全合规是必须坚守的界限,对于敏感数据,我们必须执行严格的管理;对于非敏感数据,则应鼓励其共享和使用。

为妥善处理这一问题,首要任务是对数据进行细致的分类和分级。这是基础工作,一旦完成,我们便能够对敏感数据和非敏感数据,以及不同级别的数据,实施不同的流程管理和控制策略。例如,在数据加密方面,必须明确哪些数据需要加密,特别是对敏感数据要实施更为严格的控制措施,这包括流程上的不同处理以及不同的监管要求和责任人。只有在这一基础工作扎实的前提下,我们才能对不同数据采取相应的策略。

此外,在安全合规方面,要更好地利用敏感数据识别技术,比如数据安全沙箱、隐私计算、多方安全计算等技术手段,确保敏感数据在安全可控的环境下得到合理使用,满足业务需求。在安全和规范方面,公司一直给予高度重视,并取得了相应的成效。我们也在积极参与相关标准的制定工作,包括数据安全治理实践指南、金融行业安全治理实施指南以及金融数据安全应急和处置指引等,以推动行业治理的完善。

张敏老师

非常荣幸能在此与各位进行交流,我将从产品视角出发,分享字节跳动在成本治理领域的产品现状及当前面临的挑战。字节跳动在成本管理方面积累了多年经验,依托公司丰富的应用场景和多样化经验,我们致力于打造一套全面的分布式产品解决方案。该产品旨在全面覆盖数据开发的整个周期,包括事前规划、事中监控以及事后分析等环节。产品设计的核心理念是通过设定成本目标来引导整个流程,从评估诊断开始,清晰地识别各业务线的成本状况和存在的问题,进而驱动成本目标的实现,制定并分发相应的策略。最终,用户可以在工作台或其他指定位置进行问题处理,并实现收益的回收。整个产品设计流程是完全闭环的,旨在全面协助各业务部门进行有效的成本治理。

在阐述事前、事中、事后三个阶段的具体内容之前,我将稍作扩展。事前阶段主要涉及与数据运维(DataOps)流程的整合,例如,在任务上线或调试之前进行必要的测试。其核心目的在于研发过程中对潜在风险进行控制和管理,例如在任务写入时检查表的事务日志(TL)设置是否合理,以及监控其内存使用和CPU利用率,从而在事前进行检测并实施成本控制措施。

事中阶段则侧重于监控规则的订阅和适时触发,确保用户能够及时接收到预警信息,从而推动相关负责人采取相应的治理措施。这通常涉及到常见的运维(OM)治理或异常事件的处理。

最后,事后阶段的诊断工作则聚焦于分析当前业务的整体成本治理状况。在这一阶段中,识别存在的问题,并评估治理措施带来的收益,进而制定不同级别的策略。例如,通过健康分评估,识别出无更新的表、数据倾斜等问题,并据此创建相应的计划和方案进行分发,协调用户共同完成治理任务。从管理的角度来看,这一阶段有助于监控治理的进展和成效。以上内容主要从产品角度描述了字节跳动在这一领域的现状。

在此,我将就挑战问题展开讨论。尽管目前整个流程已经实现了完全的闭环,挑战依然存在。首先,业务正经历快速的增长,在降本增效的大趋势下,产品如何提供更智能化或自动化的策略以提升治理效率,是一大挑战。产品之前已经进行了探索,例如,通过监控热度,可以自动将长时间未被访问的数据分区从热数据存储转移到温数据存储。由于温数据存储的成本仅为热数据存储的一半,因此可以实现成本的降低。未来,我们还将实施一些保障措施,比如当温数据再次变为热数据时,可以将其重新调回,从而实现自动化的存储治理,这同样是一个挑战。

其次,开放性也是一个挑战。由于字节业务种类繁多,每个业务的发展阶段各不相同,因此治理需求各异,进而治理策略也会有所区别。产品除了提供一些通用策略外,业务方还可以根据自身需求制定自定义或更灵活的策略。如何快速将这些策略接入平台,并应用于前述的全流程中,是平台面临的一大挑战,也是工作的重点。需要考虑如何实现开放性,即如何将原始数据或操作开放,以便将业务策略接入。

寇媛灼老师

很高兴能与各位共同探讨这一议题。目前,我供职于一家传统行业的企业,专注于数据相关领域的工作。随着数据资产价值的日益凸显,以及数据应用和智能化进程的加速发展,我司内部对于数据治理的认识已达到相当高的水平。从基层员工到公司高层,包括集团董事长在内,均对数据治理工作给予了高度认可,并提供了强有力的支持。

在数据治理的范畴内,我们已经顺利完成了从数据资产目录的编制到数据质量、数据标准的实施等众多工作。在数据资产目录的编制过程中,我们主要依据企业的业务流程来识别业务对象,并进一步确定这些业务对象之间的关系以及它们的属性等详细信息。然而,在将识别出的业务对象应用于实际操作时,众多企业普遍遭遇了同样的挑战:尽管业务对象和数据模型已经明确,但如何将它们有效地融入到现有的系统中仍是一个难题。许多企业已经在信息化系统上进行了长期投资,不可能仅仅因为重新梳理业务对象或数据模型就对所有系统进行彻底的重构。许多系统是通过整体采购获得的,如SAP或PeopleSoft等,它们在构建时融入了国外企业的数据建模理念和管理机制,这与我们企业的实际情况存在差异。鉴于此,若直接将梳理出的数据资产目录与现有系统对接,势必会引起问题。因此,我们采取了企业级数据架构与应用级数据架构、数据模型相匹配的方法,以实现数据架构层面的治理。

数据标准的建设包括两个角度,首先是传统的自顶向下的方式,从业务角度出发梳理数据标准,给数据定义一个标准化的规则。另外是从技术的角度,很多系统已经建设,不可能完全根据业务定的标准重新改造系统,因此也要从技术的角度梳理数据标准,之后再把这两个标准进行关联。这是一种双向奔赴,实现技术和业务之间的握手。对于新构建的系统,我们坚持依照既定的业务规范和技术规范进行实施。所有新系统及其现有功能的改进,若能遵循我们既定的标准,则必须予以执行。此为数据标准化层面的要求。

在数据质量层面,我们在制定数据标准的过程中,会对数据应达到的质量水平进行明确的定义。在构建系统时,我们要求业务系统建设必须考虑其对数据质量合规性的相关功能。这确保了输入系统的数据本身符合数据标准和质量要求,从而实现了数据质量的保障。

数据质量管理始于设计阶段。对于已构建的系统,尤其是那些老旧系统,它们可能未在质量控制和标准化控制方面设置相应限制,我们通过将数据纳入数据湖后进行质量检查,以发现潜在的质量问题。对于那些可以通过业务系统视角纠正的问题,我们会要求业务系统进行纠正,并通过相关制度和流程,确保责任到人地解决这些问题。

对于业务系统无法纠正或由系统逻辑或历史原因引起的问题,我们会在分析系统侧进行数据清洗或映射处理以解决问题。通过这种方式,我们将数据架构、标准和质量的各个方面落实到系统中。在实际工作中遇到的难以推进的问题,由于质量和标准已融入设计之中,可能不会那么明显。

在安全方面,对于国有企业而言,数据安全是基本要求。我们通过分领域、分类分级的方式,制定数据安全标准和安全等级。例如,对于核心财务数据,我们将其归入财务领域,并实施最高级别的安全等级管理。这些数据在输入系统后,会被存放在加密存储区域。在使用时,根据调阅方的职级和工作领域,判断其是否有权调阅数据。若调阅者拥有相应权限,我们将通过加密平台向其展示数据。对于高敏感度的数据,我们采取相应的管理措施和技术手段,以确保数据信息安全。







请到「今天看啥」查看全文