《Spark 2.1 原理、内幕与案例实践》第二期
以目前主流的,最新的spark稳定版2.1.x为基础,深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,实战经验以及在线演示。本课程精心设计了五个企业级应用案例,帮助大家在理解理论的基础上,亲手实践和应用spark。
1. 讲述最新、最稳定的Spark2.1.X版本
2. 精心设计5个企业级应用案例,更好地实践、应用Spark
1. 熟练使用Spark, 理解Spark原理,熟知Spark内幕
2. 掌握Spark 2.1新增特性并熟练使用
3. 用有丰富的Spark企业实战经验
董西成 hulu大数据架构组负责人
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;
资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。
2017年4月6日
在线直播
,共9次
每周2次(周二、周四晚上20:00-22:00)
直播后
提供录制回放
视频
可
在线反复观看
,有效期1年
Spark 概述(共1课时)
第一课
:
Spark2.1 概述
1. Spark产生背景
包括mapreduce缺陷,多计算框架并存等
2. Spark 基本特点
3. Spark版本演化
4. Spark核心概念
包括RDD, transformation, action, cache等
5. Spark生态系统
包括Spark生态系统构成,以及与Hadoop生态系统关系
6. Spark在互联网公司中的地位与应用
介绍当前互联网公司的Spark应用案例
7. Spark集群搭建
包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程
8. 背景知识补充介绍
a. Hadoop基础
b. HDFS简介(特点、架构与应用)
c. YARN简介(架构)
d. MapReduce简介(编程模型与应用)
I. Eclipse与Intellij IDEA
II. Maven
Spark Core(共3课时)
第二课
:
Spark 程序设计与企业级应用案例
1. Spark运行模式介绍
Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)
2. Spark开发环境构建
集成开发环境选择,亲手演示spark程序开发与调试,spark运行
3. 常见transformation与action用法