点击上方“
蓝色字体
”,选择 “
设为星标
”
关键讯息,D1时间送达!
尽管数据湖有很大的前景,但由于缺乏治理能力和较为成功的先例,近年来,数据湖收到了很多负面评论。
企业管理者和技术人员一直期待着数据湖能为企业创造更大价值,但结果却令人失望。
但是随着云计算的可用性越来越高,存储巨量数据就像创建数据湖一样容易。
然而,最根本的挑战是:
如何运用数据湖分析更多的数据来做出业务决策?
技术的复杂性不再是障碍,但企业仍然需要避免一些非技术性的常见错误。
以下是企业相关专家和业务人员可以采取的四个步骤,以确保数据湖正常运行:
1. 了解将要用于特定项目的数据
虽然数据湖可以存放大量数据,但是由于缺乏规划性,有些数据湖从建立之初就有先天性缺陷。
有些企业不是根据具体需求创建数据湖,而是将所有数据不加分类就存放其中。
虽然数据湖的功能就是汇集多种数据和分析数据,但企业也必须在两者之间实现平衡,以实现数据湖的最大价值。
2.只加载一次数据
将数据加载到数据湖时,企业必须面对两个挑战。
第一个是管理大数据文件系统时需要一次性加载整个文件。
对于小型表和文件,一次加载并非难题,但在处理大型表和文件时,这会变得更加困难。
可以首先加载整个数据集,然后加载增量变化,这样就可以尽量缩短加载大型源数据集所需的时间。
这仅需要识别已更改的源数据行,然后将这些更改与数据湖中的现有表合并和同步。
企业还面临着另外的挑战,当两个人将相同数据源加载到数据湖的不同部分时,会造成数据湖消耗过多的数据加载能力。
因此,有些数据湖因中断用于运行业务的运营数据库而备受指责。
这需要更严密的治理流程来确保不会发生这种情况(方法参见步骤4)。
3.将数据进行分类以便搜索和查找
将数据加载到数据湖时,要注意的不仅是方便分析人员搜索该数据,还要避免因数据混乱造成的相同数据源多次重复加载的情况。
载入数据时对其分门别类,这个步骤就算现在不做,以后也一定会做。
但是未来进行的数据分类,就不是简单的对号入座了,这无疑是给未来的自己挖坑跳。
通过预先计划好的数据治理流程,可以更轻松地使用数据湖并令其价值最大化,同时还可以消除上述多种问题。
4. 记录数据操作 实现高效治理
一旦人们开始使用数据湖中的数据,他们可能会清理它或将其与其他数据集集成。
通常情况下,这些人会在项目成功时清理掉其他人可能感兴趣的数据。
但是其他人如果只了解数据湖中的原始数据,而不是别人如何使用它,那么他们很有可能重复已经完成的工作。
通过记录围绕数据以往的操作,生成相应的数据操作流程,这些流程记录了人们在数据湖中对数据进行的载入、移动、转换等操作,这样有助于实现高效治理。
除了上述步骤,构建良好的数据湖还有其他要注意的事项。
但若想让数据湖发挥其最大价值,首要的就是要建立结构清晰的数据湖,防止数据湖变成混乱数据的“沼泽”。
(来源:
IT168网站)
如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿
投稿邮箱:[email protected]
点击
蓝色
字体
关注
您还可以搜索公众号
“D1net”