作者:Gilad
David Maayan
翻译:Nicola
校对:丁楠雅
本文约
1600
字,
建议阅读
4分钟。
本文分别介绍了传统数据仓库和云数据仓库,简洁明了地指出两者的区别和利弊,以及对数据仓库未来发展方向做出预测。
数据仓库是从
操作系统
和
外部数据源
派生的集成历史数据的
中央存储库
。作为商业智能的核心部分,数据仓库使企业能够进行广泛的商业决策,包括产品定价,业务扩展和对新生产的投资模式。
除了协助分析和报告之外,数据仓库还为企业提供以下用途:
云计算的出现在过去五年中显著影响了数据仓库架构,导致数据仓库服务(DWaaS)大受欢迎。
在本文的其余部分中,你将了解到传统数据仓库和基于云的数据仓库之间的区别。
传统数据仓库
传统的数据仓库需要本地IT资源,例如服务器和软件来传递数据仓库功能。企业运行自己的本地数据仓库时,还必须有效地管理基础架构。
传统数据仓库分为以下三层结构:
为了将数据集成在统一存储库中,ETL(提取,转换和加载)工具是一个典型的从各种来源获取数据的工具,将其混合并应用于商务规则以将其转换为查询的正确结构,并最终把数据加载进入数据仓库。
传统数据仓库设计的两种对比方式反映了两位计算机科学先驱Bill
Inmon和Ralph
Kimball的不同观点:
云数据仓库
基于云计算的数据仓库方法运用公开的云提供商提供的数据仓库服务,例如Amazon
Redshift或Google
BigQuery。
通过提供互联网接入的数据仓库功能,公共云提供商可帮助公司避开构建传统本地数据仓库所需的初始设置成本。此外,云中的这些企业数据仓库是完全托管的,因此服务提供商管理并承担提供所需数据仓库功能的责任,例如系统补丁和更新。
云架构与传统的数据仓库方法有所不同。例如,在Redshift中,该服务通过要求您提供一个基于云的计算节点集群来运行,其中一些计算节点编制检索,而另一些执行这些检索。Google提供无服务器服务,这意味着Google会动态地管理机器资源的分配,并将这些决策从用户中抽离出来。
比较
云数据仓库的优化级别难以与本地部署的有限功率相匹配。列式存储(表个中的值按列而不是按行存储)可以根据需要运行的查询类型来满足更快的聚合查询。
大规模并行处理
也是一个重要的特性,通过使用多台机器协调大型数据集的查询处理,可显著提高速度。
就云数据仓库的扩展性而言,和从云提供商那里获取更多资源一样简单。然而,本地部署的可扩展性非常耗时且成本很高,因此需要购买更多硬件。
云计算中的安全性是一个棘手的问题,因为互联网上的数据传输太字节(terabytes)会带来严重的安全问题考虑,而且敏感数据也可能引起一些合规性问题。本地部署就避免了这样的担忧,因为企业控制着一切。
总结
云数据仓库的准入门槛低,有助于中小企业更容易访问数据仓库。此外,即使是最大型的企业也可以从较低的成本中受益,例如基础架构的持续管理和轻松的可扩展性。
云数据仓库不是没有问题,比如潜在的安全问题,然而,益处大于弊端。传统的本地部署并没有完全被淘汰,但随着数据量和速度不断增长,而且云服务能更专业化地处理这些问题。随着越来越多的工作负载迁移到云中,越来越多的公司作为服务提供商进入市场,数据仓库的未来似乎在云中。
有关数据仓库基础知识的更多信息,请查看此
数据仓库指南
:
https://panoply.io/data-warehouse-guide/
原文标题:The
Difference Between a Traditional Data Warehouse and a Cloud Data
Warehouse
原文链接:http://www.dataversity.net/difference-traditional-data-warehouse-cloud-data-warehouse/