专栏名称: 炼数成金前沿推荐
关注炼数成金,学习数据挖掘与分析技巧,了解最新快的数据分析课程信息。更多知识更多优惠,尽在炼数成金!招募天下好汉,一起炼数成金!
目录
相关文章推荐
51好读  ›  专栏  ›  炼数成金前沿推荐

Spark企业级大数据项目实战

炼数成金前沿推荐  · 公众号  ·  · 2018-09-11 17:23

正文

本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo。 本门课程涵盖了离线分析、实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Oracle、ElasticSearch等相关大数据技术, 并实际落地 。


本门课程全程实操, 不用担心基础不好, 老师将会从每个项目的演进过程详细分析, 手把手搭建开发环境, 每个功能点都有代码实操, 拿到生产上可以直接使用。


本门课程大量生产上的较佳实践, 不仅能为技术选型提供参考, 也能大幅度提升个人的知识和技术水平, 学完可以胜任PB级大数据的开发和优化,面试中说出来都是亮点, 是跳槽、转型、加薪的利器 , 让你轻松实现华丽转身。  只要你有一点Hadoop、Spark和Scala基础,并且能保持学习的热情, 那么就跟随老师来吧。


课程大纲:

第一课:  生产项目的演进和改造思路

1. 三大生产项目(离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失)业务介绍

2. 离线分析和实时分析的场景介绍

3. 改造思路

4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型


第二课:  手把手从零搭建开发环境

1. Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装

2. IDEA安装

3. Maven工程构建

4. IDEA调试Spark项目

5. Spark源码编译

6. Spark作业提交方式


第三课:安全日志上报之Spark Streaming+Kafka保证数据零丢失(一)

1. Spark Streaming 整合Kafka的几种方式对比

2. 彻底搞懂Kafka 消息检索原理

3. 使用Spark Streaming进行Kafka 的Offset管理(Checkpoints、Hbase、Zookeeper、Kafka)

4. Spark Streaming保存offset到zookeeper乱码处理


第四课:安全日志上报之Spark Streaming+Kafka保证数据零丢失(二)

1. 实时作业的at most once、at least once、exactly once语义

2. 方案选型和对比(四种方案)

3. Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。

4. Spark Streming + Kafka(消费) +  Kafka(清洗后入)方案和代码实操


第五课: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(三)

1. SQL on Hbase 实现的几种方式

2. Spark Streming + Kafka(消费) + Hbase(清洗后入)实现exactly once语义方案

3. 代码实操

4. SQL on Hbase 性能优化


第六课: 安全日志上报之Spark Streaming+Kafka保证数据零丢失(四)

1.  Spark 整合Elasticsearch要点和案例实操

2.  Spark Streming + Kafka(消费) + Elasticsearch实现exactly once语义方案

3.  Spark Streming + Kafka(消费) +Oracle实现exactly once语义方案

4.  代码实操

5  Spark 整合Elasticsearch性能优化


第七课: 离线日志分析项目(一)

1. 第一版问题分析

2. ETL流程分析

3. Flume+Nginx整合, 数据采集,日志分割

4. Flume如何实现负载均衡和高可用

5. 日志收集系统架构(可用性、可靠性、可扩展性)


第八课:  离线日志分析项目(二

1. 文件存储格式对比

2. Spark 整合 Hive

3. 第二版项目方案的演进和代码实操

4. 解决小文件问题

5. 数据质量监控


第九课:  离线日志分析项目(三)

1. 理解Spark的Stage划分,如何定位导致数据倾斜代码,数据倾斜的场景和需要注意的地方

2. 广播变量使用的坑

3. Spark整合Oracle的表需要注意的地方

4. Spark作业调度异常问题案例汇总


第十课: 企业预警实时监控

1. 第一版: 使用Spark Streaming清洗数据(Hive动态分区等) + 代码实操

2. 第一版存在的问题分析

3. 第二版项目方案的演进和代码实操

4. 中文乱码问题解决


第十一课: 通用解决方案







请到「今天看啥」查看全文