专栏名称: TechTarget
全球领先的企业级IT网络媒体!
目录
相关文章推荐
新浪科技  ·  【#教授谈DeepSeek点燃医药圈热情#】 ... ·  16 小时前  
新浪科技  ·  【#全球第三大车企计划搁浅# ... ·  2 天前  
51好读  ›  专栏  ›  TechTarget

超长假期过后,准备好搭建你的大数据团队了吗?

TechTarget  · 公众号  · 科技媒体  · 2017-10-09 10:47

正文

TechTarget 原创

数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。


在大数据时代,为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担,在数据被输入系统时,IT和分析团队会进行一些相应的数据准备工作。


(图片来源于网络)


这通常需要一个混合模型,对于那些不想自己完成数据准备工作的用户,该模型将会在提供给他们的数据集上应用一些既定模式和数据格式,而对于想要自己完成数据准备工作的人,则交给他们的将会是原始数据。平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明,灵活的分析数据准备策略可以扩大数据的普通受众,使其不再仅限于被顶级数据科学家所使用。

例如,Discover Financial Services的大数据平台团队最初将信用卡交易数据、客户记录和其他类型的信息放在一个基于hortonwork的Hadoop集群中进行分析。伊利诺斯州Riverwoods公司高级分析和决策平台副总裁Santosh Bardwaj表示:“以前这像一盘大杂烩”。但在加州圣何塞举办的DataWorks峰会上,Bardwaj补充说,他发现 分析师们很难完全利用所有不同的数据成分。“我们意识到,我们必须采用某种标准的模式,这样人们才能更为正确的使用数据。”


(图片来源于网络)


原始数据仍然会以其原始状态存储,但同时还应该提供一组模式和轻数据建模,以便使用者能够更容易地进行数据查询。Bardwaj的团队还提供了一个更丰富的数据版本,其中内置了业务逻辑和元数据,以进一步简化一些用户的数据准备工作。他指出,这些步骤为分析提供了更多的可用数据。

基于数据流的数据准备


此外,Discover正致力于部署基于流的设置,通过Apache Spark processing engine实现提取、转换和加载(ETL)过程的自动化,让分析师能够构建自己的数据管道。Bardwaj说,“目前,这是由一些非常精通Spark的数据工程师完成的,他们可以手工编写代码进行ETL。但我们不认为手工编码是一种衡量数据准备工作的方式。”

GoPro公司的大数据架构团队已经成立了一个类似的自动化过程, 使用数据定义语言(DDL)语法在公司的可穿戴的摄像头产生的动态数据流上添加一个表模式,此外其他内部和外部的数据都会被收集在一个基于云的Hadoop并发系统中。


位于加州圣马特奥市的软件工程师邹浩说,定制动态DDL的方法可以让GoPro的数据科学家在几分钟内、甚至几秒钟内就能获得所需的分析数据。邹补充说,数据科学家认为数据准备工作十分无趣,他们并不想自己去完成这些乏味的工作。


生物技术公司CSL Behring正在部署一个基于Hadoop的平台,将美国工厂的生产数据澳大利亚、德国和瑞士的数据整合在一起进行分析。负责大数据基础设施的高级业务系统架构师Mark Baker说,他正在做一些前期工作,以协调数据。例如,删除umlauts和其他特定语言的标记和字符,避免数据不一致的问题。

除此之外,数据在摄入过程中处于原始状态。Baker解释说,一些“非常高端”的数据科学家想要处理原始数据。但他同时还需要运行ETL任务,为CSL Behring的其他分析师准备数据集。Baker说,“他们告诉我想要的数据是什么形式的,然后由我来进行数据准备。”他通常使用Spark和其他工具来处理数据,并加载数据到Apache Hive或HBase存储库。

根据你的需求准备数据








请到「今天看啥」查看全文