点击上方“
蓝色字体
”,选择 “
设为星标
”
关键讯息,D1时间送达!
跨国公司通常有很多应用程序,例如,笔者最近合作的一家公司就拥有600多个文档化IT应用程序,其中之一就是其ERP系统。
如果要了解整个企业的业务绩效,你需要以某种方式汇总这些数据,以解决产品、客户、供应商分类不一致问题。
这项艰巨的任务需要处理棘手的数据质量问题,而这就会需要数据仓库。
在企业重组、收购和其他业务变化中,保持数据仓库更新是一项重大挑战,但这正是企业所依赖的东西,以便为他们提供业务统一视图。
对于商业许可数据库来说,大数据的数量太大,它们无法经济地处理如此多的数据。
这些数据包括来自智能电表、传感器、Web日志、电话基站、社交媒体等的数据。
一架现代飞机每次飞行可产生5 TB的数据,而自动驾驶汽车每天可产生40 TB的数据。
传统数据库无法处理如此大的数量,并且在扩展时成本会迅速上升。
更便宜的存储选项是Hadoop,这是一种开源的分布式处理框架,它允许在商用硬件集群上存储和管理非常大量的数据。
Hadoop已被添加到服务来处理企业现在生成的大数据,但重要的是要了解该数据是原始数据,数据没有像在数据仓库中那样被处理或汇总。
“数据湖”一词用于描述原始数据的存储。
想象一下真正的湖水与一瓶依云之间的区别,后者经过清洗、品牌化和包装,易于饮用。
最初,数据湖全部托管在企业防火墙内部的专用硬件上。
但是,维护不断增长的数据湖(以及在数据涌入时添加和管理服务器)需要很多资源。
因此,我们开始看到供应商开始托管数据湖,正如供应商进入企业过去在内部处理的其他市场一样,这并不令人惊讶。
在自己的企业数据中心内进行大数据湖管理(处理备份、安全性和硬件故障等)是一项艰巨的工作。
这也是为什么托管云服务成为数据湖Hadoop的主要替代方案。
亚马逊、微软和谷歌在云端提供数据湖。
但是,在将数据移交给云服务提供商之前,你需要考虑一些重要的数据湖管理问题。
从好的方面来说,管理是别人的问题,你可以根据需要扩大或缩小规模,而不必投资新的硬件。
另一方面,你需要考虑是否信任提供商来处理数据的安全性(其中大部分数据可能非常敏感),以及是否信任其保持运营服务运行的能力。
虽然大多数提供商变得越来越可靠,但即便在2019年,我们也看到重大故障的发生,包括影响Google Cloud(6月2日)和微软(1月24日)的事故。
不过,你的内部数据中心就不会遇到断电的问题吗?
在云端还是内部运行数据湖,取决于你是否相信第三方提供商可以安全可靠地维护你的数据。
在云计算早期,企业对于将数据湖存储在防火墙外部的云端感到非常紧张。
慢慢地,经济利益让他们放下了这些担忧。
根据IDC的报告,现在越来越多的应用程序正在迁移到云中,包括数据湖,2019年的云计算比2018年增长了近24%,而根据451 Research在2017年进行的一项调查显示,90%的企业在使用某种类型的云服务。
究竟是将数据湖托管在云端还是内部?
大型公司面临的障碍是,如何真正利用以越来越快的速度涌入其数据湖的数据。
数据分析师面对如此大量数据,就像试图从消防水带喝水一样。
你需要对数据湖中存储的数据进行分类,使用有意义的元数据标记数据集,以使其稍后可识别,并开始映射此数据与企业数据的关系。
向原始数据添加有意义的元数据或标签尤其重要。
如果不这样做,你的数据湖将变成数据沼泽。
企业通常会在其传统数据仓库旁边建立数据湖,并根据需要将数据从湖中抽出到仓库中。
在决定是否为你的数据湖使用云服务前,你需要考虑该服务是否可很好补充你的数据仓库。
例如,如果你的数据湖获取社交媒体Feed,其中包含客户对你品牌的评论,那么如何将这些数据与客户数据库相关联?
如果客户是你在公司忠诚度计划中的重要客户,你可能需要更多地关注他们的抱怨,但是你能够建立这种联系吗?
整理原始数据湖,并将其与主流公司数据相结合会带来很多机会,但这对于高压下的数据管理人员来说也是一个重大挑战。邹铮译
(来源:TechTarget中国)
如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿
投稿邮箱:[email protected]
点击
蓝色
字体
关注
您还可以搜索公众号
“D1net”
选择关注
D1net
旗下的各领域(云计算,数据中心,大数据,CIO, 企业通信 ,企业应用软件,网络数通,信息安全,服务器,存储,AI人工智能,物联网智慧城市等)的子公众号。
企业网D1net已推出
企业应用商店
(www.enappstore.com),面向企业级软件,SaaS等提供商,提供陈列,点评功能,不参与交易和交付。现可免费入驻,入驻后,可获得在企业网D1net 相应公众号推荐的机会。欢迎入驻。
扫描下方“
二维
码
”即可注册,注册后读者可以点评,厂商可
以
免费入
驻
。