TechTarget 原创
数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。
在大数据时代,为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担,在数据被输入系统时,IT和分析团队会进行一些相应的数据准备工作。
(图片来源于网络)
这通常需要一个混合模型,对于那些不想自己完成数据准备工作的用户,该模型将会在提供给他们的数据集上应用一些既定模式和数据格式,而对于想要自己完成数据准备工作的人,则交给他们的将会是原始数据。平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明,灵活的分析数据准备策略可以扩大数据的普通受众,使其不再仅限于被顶级数据科学家所使用。
例如,Discover Financial Services的大数据平台团队最初将信用卡交易数据、客户记录和其他类型的信息放在一个基于hortonwork的Hadoop集群中进行分析。伊利诺斯州Riverwoods公司高级分析和决策平台副总裁Santosh Bardwaj表示:“以前这像一盘大杂烩”。但在加州圣何塞举办的DataWorks峰会上,Bardwaj补充说,他发现
分析师们很难完全利用所有不同的数据成分。“我们意识到,我们必须采用某种标准的模式,这样人们才能更为正确的使用数据。”
(图片来源于网络)
原始数据仍然会以其原始状态存储,但同时还应该提供一组模式和轻数据建模,以便使用者能够更容易地进行数据查询。Bardwaj的团队还提供了一个更丰富的数据版本,其中内置了业务逻辑和元数据,以进一步简化一些用户的数据准备工作。他指出,这些步骤为分析提供了更多的可用数据。
此外,Discover正致力于部署基于流的设置,通过Apache Spark processing engine实现提取、转换和加载(ETL)过程的自动化,让分析师能够构建自己的数据管道。Bardwaj说,“目前,这是由一些非常精通Spark的数据工程师完成的,他们可以手工编写代码进行ETL。但我们不认为手工编码是一种衡量数据准备工作的方式。”
GoPro公司的大数据架构团队已经成立了一个类似的自动化过程, 使用数据定义语言(DDL)语法在公司的可穿戴的摄像头产生的动态数据流上添加一个表模式,此外其他内部和外部的数据都会被收集在一个基于云的Hadoop并发系统中。
位于加州圣马特奥市的软件工程师邹浩说,定制动态DDL的方法可以让GoPro的数据科学家在几分钟内、甚至几秒钟内就能获得所需的分析数据。邹补充说,数据科学家认为数据准备工作十分无趣,他们并不想自己去完成这些乏味的工作。
生物技术公司CSL Behring正在部署一个基于Hadoop的平台,将美国工厂的生产数据澳大利亚、德国和瑞士的数据整合在一起进行分析。负责大数据基础设施的高级业务系统架构师Mark Baker说,他正在做一些前期工作,以协调数据。例如,删除umlauts和其他特定语言的标记和字符,避免数据不一致的问题。
除此之外,数据在摄入过程中处于原始状态。Baker解释说,一些“非常高端”的数据科学家想要处理原始数据。但他同时还需要运行ETL任务,为CSL Behring的其他分析师准备数据集。Baker说,“他们告诉我想要的数据是什么形式的,然后由我来进行数据准备。”他通常使用Spark和其他工具来处理数据,并加载数据到Apache Hive或HBase存储库。