超长假期过后，准备好搭建你的大数据团队了吗？

TechTarget · 公众号 · 科技媒体 · 2017-10-09 10:47

正文

TechTarget 原创

数据科学家和其他用户在使用数据前，无需自己完成数据准备工作，这些数据准备任务应由具备大数据环境的企业来完成。

在大数据时代，为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担，在数据被输入系统时，IT和分析团队会进行一些相应的数据准备工作。

（图片来源于网络）

这通常需要一个混合模型，对于那些不想自己完成数据准备工作的用户，该模型将会在提供给他们的数据集上应用一些既定模式和数据格式，而对于想要自己完成数据准备工作的人，则交给他们的将会是原始数据。平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明，灵活的分析数据准备策略可以扩大数据的普通受众，使其不再仅限于被顶级数据科学家所使用。

例如，Discover Financial Services的大数据平台团队最初将信用卡交易数据、客户记录和其他类型的信息放在一个基于hortonwork的Hadoop集群中进行分析。伊利诺斯州Riverwoods公司高级分析和决策平台副总裁Santosh Bardwaj表示：“以前这像一盘大杂烩”。但在加州圣何塞举办的DataWorks峰会上，Bardwaj补充说，他发现 分析师们很难完全利用所有不同的数据成分。“我们意识到，我们必须采用某种标准的模式，这样人们才能更为正确的使用数据。”

（图片来源于网络）

原始数据仍然会以其原始状态存储，但同时还应该提供一组模式和轻数据建模，以便使用者能够更容易地进行数据查询。Bardwaj的团队还提供了一个更丰富的数据版本，其中内置了业务逻辑和元数据，以进一步简化一些用户的数据准备工作。他指出，这些步骤为分析提供了更多的可用数据。

基于数据流的数据准备

此外，Discover正致力于部署基于流的设置，通过Apache Spark processing engine实现提取、转换和加载(ETL)过程的自动化，让分析师能够构建自己的数据管道。Bardwaj说，“目前，这是由一些非常精通Spark的数据工程师完成的，他们可以手工编写代码进行ETL。但我们不认为手工编码是一种衡量数据准备工作的方式。”