【每周一本书第2波】Spark大数据分析技术与实战

CDA数据分析师 · 公众号 · 大数据 · 2017-08-30 18:15

正文

作者 CDA 数据分析师

读书使人充实，讨论使人机智，笔记使人准确，读史使人明智，读诗使人灵秀，数学使人周密，科学使人深刻，伦理使人庄重，逻辑修辞使人善辩。凡有所学，皆成性格。

—— 培根

你只需说出想要得到赠书的理由，剩下的交给C君和您的朋友。

在大数据背景下，各领域对数据相关服务的需求不断提升，迫切需要一种高效通用的大数据处理引擎。相对于第一代大数据生态系统Hadoop中的MapReduce，Spark是一种基于内存的、分布式的大数据处理引擎，其计算速度更快，更加适合处理具有较多迭代次数的问题；Spark中还提供了丰富的API，使其具有极强的易用性；与此同时，Spark实现了“一栈式”的大数据解决方案，即在Spark内核基础上提出了Spark GraphX、Spark Streaming、Spark MLlib、Spark SQL等组件，使其不仅能够对海量数据进行批处理，同时还具备流式计算、海量数据交互式查询等功能，可以满足包括教育、电信、医疗、金融、电商、政府、智慧城市和安全等诸多领域中的大数据应用需求。

Spark作为下一代大数据处理引擎，经过短短几年的飞跃式发展，正在以燎原之势席卷业界，现已成为大数据产业中的一股中坚力量。本书主要针对大数据技术初学者，着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架，并提供了相应的示例与解析，是初学者快速入门和学习Spark的不二之选。

【每周一本书】 又是一周，CDA数据分析师携手工业出版社将于 每周三展开赠书活动 ，每周给各位读者提供3-5本赠书，希望带动各位读者能借此机会每周充一次电。（注：书籍将于10天内发放到中奖者手中。参与方式见下文）

作者简介

董轶群，吉林大学计算机科学与技术学院博士毕业。曾在吉林大学“符号计算与知识工程”教育部重点实验室从事空间关系建模研究，参与了多个国家自然科学基金重点项目与面上项目的申报与研究工作，并在项目中主要负责空间方向关系建模、空间拓扑关系建模的研究工作。目前作为经管之家（原人大经济论坛）大数据讲师，主讲Spark、Hbase、Scala等大数据核心课程，并从事大数据相关的理论与应用研究工作。重点关注海量数据背景下空间关系建模与智能交通的结合研究，并在国内期刊和国际会议上发表了一系列相关理论的研究成果。

曹正凤，统计学博士，经管之家（原人大经济论坛）大数据中心总工程师，经管之家CDA大数据分析师培训负责人，北京博宇通达科技有限公司技术总监。致力于大数据分析前沿领域研究，主持首发集团智慧交通大数据中心建设项目，基于大数据平台的互联网金融风险监控系统项目，参与国家社科基金项目《基于大数据整合的空气质量测度方法研究》。

【每周一本书第2波】Spark大数据分析技术与实战

正文

请到「今天看啥」查看全文