Spark Core(共3课时)
第二课:Spark 程序设计与企业级应用案例
1. Spark运行模式介绍
Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等)
2. Spark开发环境构建
集成开发环境选择,亲手演示spark程序开发与调试,spark运行
3. 常见transformation与action用法
介绍常见transformation与action使用方法,以及代码片段剖析
4. 常见控制函数介绍
包括cache、broadcast、accumulator等
5. Spark 应用案例:电影受众分析系统
包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示
第三课:park 内部原理剖析与源码阅读
1. Spark运行模式剖析
深入分析spark运行模式,包括local,standalone以及spark on yarn
2. Spark运行流程剖析
包括spark逻辑查询计划,物理查询计划以及分布式执行
3. Spark shuffle剖析
深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现
4. Spark 源码阅读
Spark源码构成以及阅读方法
第四课:Spark 程序调优技巧
1. 数据存储格式调优
数据存储格式选择,数据压缩算法选择等
2. 资源调优
如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等
3. 程序参数调优
介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等
4. 程序实现调优
如何选择最合适的transformation与action函数
5. 调优案例分享与演示
演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。