专栏名称: 大数据D1net
大数据D1net隶属于企业网D1Net,提供大数据存储、大数据分析、大数据挖掘等有关大数据的最新技术和资讯。
目录
相关文章推荐
大数据文摘  ·  Grok 3第一个破圈的场景,居然是写小黄文。 ·  3 天前  
大数据文摘  ·  风投式思维:哪吒2和DeepSeek背后的共 ... ·  4 天前  
数据派THU  ·  政务系统拥抱DeepSeek,会带来哪些改变? ·  2 天前  
软件定义世界(SDX)  ·  数字化转型成熟度标准化研究与应用 ·  4 天前  
软件定义世界(SDX)  ·  马斯克20万块GPU炼出Grok-3,暴击D ... ·  5 天前  
51好读  ›  专栏  ›  大数据D1net

防止数据湖变成“沼泽”的四个基本步骤

大数据D1net  · 公众号  · 大数据  · 2019-04-15 15:52

正文


点击上方“ 蓝色字体 ”,选择 “ 设为星标

关键讯息,D1时间送达!



尽管数据湖有很大的前景,但由于缺乏治理能力和较为成功的先例,近年来,数据湖收到了很多负面评论。



企业管理者和技术人员一直期待着数据湖能为企业创造更大价值,但结果却令人失望。 但是随着云计算的可用性越来越高,存储巨量数据就像创建数据湖一样容易。 然而,最根本的挑战是: 如何运用数据湖分析更多的数据来做出业务决策?


技术的复杂性不再是障碍,但企业仍然需要避免一些非技术性的常见错误。 以下是企业相关专家和业务人员可以采取的四个步骤,以确保数据湖正常运行:


1. 了解将要用于特定项目的数据


虽然数据湖可以存放大量数据,但是由于缺乏规划性,有些数据湖从建立之初就有先天性缺陷。 有些企业不是根据具体需求创建数据湖,而是将所有数据不加分类就存放其中。 虽然数据湖的功能就是汇集多种数据和分析数据,但企业也必须在两者之间实现平衡,以实现数据湖的最大价值。


2.只加载一次数据


将数据加载到数据湖时,企业必须面对两个挑战。 第一个是管理大数据文件系统时需要一次性加载整个文件。 对于小型表和文件,一次加载并非难题,但在处理大型表和文件时,这会变得更加困难。 可以首先加载整个数据集,然后加载增量变化,这样就可以尽量缩短加载大型源数据集所需的时间。 这仅需要识别已更改的源数据行,然后将这些更改与数据湖中的现有表合并和同步。


企业还面临着另外的挑战,当两个人将相同数据源加载到数据湖的不同部分时,会造成数据湖消耗过多的数据加载能力。 因此,有些数据湖因中断用于运行业务的运营数据库而备受指责。 这需要更严密的治理流程来确保不会发生这种情况(方法参见步骤4)。


3.将数据进行分类以便搜索和查找


将数据加载到数据湖时,要注意的不仅是方便分析人员搜索该数据,还要避免因数据混乱造成的相同数据源多次重复加载的情况。


载入数据时对其分门别类,这个步骤就算现在不做,以后也一定会做。 但是未来进行的数据分类,就不是简单的对号入座了,这无疑是给未来的自己挖坑跳。 通过预先计划好的数据治理流程,可以更轻松地使用数据湖并令其价值最大化,同时还可以消除上述多种问题。


4. 记录数据操作 实现高效治理


一旦人们开始使用数据湖中的数据,他们可能会清理它或将其与其他数据集集成。 通常情况下,这些人会在项目成功时清理掉其他人可能感兴趣的数据。 但是其他人如果只了解数据湖中的原始数据,而不是别人如何使用它,那么他们很有可能重复已经完成的工作。 通过记录围绕数据以往的操作,生成相应的数据操作流程,这些流程记录了人们在数据湖中对数据进行的载入、移动、转换等操作,这样有助于实现高效治理。


除了上述步骤,构建良好的数据湖还有其他要注意的事项。 但若想让数据湖发挥其最大价值,首要的就是要建立结构清晰的数据湖,防止数据湖变成混乱数据的“沼泽”。


(来源: IT168网站)

如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿 投稿邮箱:[email protected]

点击 蓝色 字体 关注

您还可以搜索公众号 “D1net”







请到「今天看啥」查看全文