课程简介
Hadoop已经成为目前大数据处理的事实标准,各大互联网公司均在用Hadoop来作为数据平台的重要组成部分。在小规模数据量场景下,并不关心Hadoop集群的规划与性能问题,能用即可。然而,随着业务的增长和数据量的增长,在上百台甚至上千上万台集群规模、上PB的数据量下,如何合理的规划和使用Hadoop集群、如何优化集群发挥更高的效率,就显得尤为重要。
本课程将从Hadoop集群运维的角度着手,从零开始手把手规划、部署、安装、优化和管理集群,综合互联网一线大规模Hadoop集群运维的实践经验,更深入的剖析Hadoop集群原理,教授如何零基础构建更加高效、稳定、可扩展的大规模Hadoop集群。通过本课程的学习,有助于深入理解Hadoop原理,能够胜任PB级大规模Hadoop集群运维管理的工作。
课程大纲
第一课. 预备知识
1.1. 大数据与Hadoop
1.2. Hadoop发展历程与现状
1.3. Hadoop的基本组成与原理
第二课. 集群部署前的准备
2.1. 硬件选型
2.2. 网络规划
2.3. 操作系统选型与配置
2.4. Hadoop版本选型
第三课. 从零开始安装部署Hadoop集群
3.1. 伪分布式模式
3.2. 分布式生产环境部署
3.3. 节点规划
3.4. 集群安装部署HDFS
3.5. 集群安装部署MRv2和YARN
3.6. Hadoop集群benchmark
第四课. 开始使用Hadoop集群
4.1. Hadoop命令手册解读
4.2. HDFS使用与权限
4.3. MapReduce Job开发、运行与管理
4.4. YARN管理
第五课. Hadoop集群性能优化
5.1. 集群常用配置文件解读
5.2. HDFS配置优化
5.3. MapReduce配置优化
5.4. YARN配置优化
第六课. HDFS高可用配置
6.1. NameNode HA
6.2. HDFS Federation
第七课. YARN高可用配置
7.1. ResourceManager HA
7.2. NodeManager Recovery
第八课. Hadoop安全模式与权限控制
8.1. Hadoop安全模式原理与架构
8.2. Kerberos原理与Hadoop应用
8.3. 权限控制
第九课. Hadoop集群管理
9.1. HDFS权限规划和Quota管理
9.2. HDFS扩容与故障节点处理
9.3. HDFS Balancer
9.4. HDFS FSCK
9.5. HDFS distcp
9.6. YARN Scheduler配置管理
9.7. YARN扩容与故障节点处理
9.8. 集群版本升级与回滚
第十课. Hadoop其他组件安装配置与管理
10.1. HBase安装配置管理
10.2. Hive安装配置管理
10.3. Pig安装配置管理
10.4. Spark安装配置与管理
第十一课. Hadoop集群监控方案
11.1. JMX监控
11.2. Ganglia监控
11.3. Nagios/Zabbix监控
第十二课. Hadoop新版本特性概述与展望
12.1. HDFS集中式缓存
12.2. HDFS分级存储
12.3. YARN Node Label
12.4. YARN Timeline Server
12.5. YARN Docker执行器
12.6. Hadoop 3.0展望