课程介绍:
本专题课程内容主要以机器学习模型为主,涉及线性回归模型、逻辑回归模型、决策树模型、以及集成模型:随机森林模型、AdaBoost模型、XGBoost模型、LightGBM模型、特征工程、数据聚类分群、智能推荐系统模型、关联分析模型,涉及银行客户价值预测、客户流失预警模型、银行客户违约预测模型、股票涨跌预测模型、银行信用卡精准营销模型、金融反欺诈模型、信用评分卡模型、金融产品智能推荐模型、银行客户分群模型、金融产品交叉销售模型等多个实战案例模型。
第一章主要介绍Python的基础知识,从如何安装Python并成功运行成功第一行Python代码开始,到Python基础常识、最重要的三大语句、Python函数与模块等,为之后的进阶知识做铺垫,学完Python基础知识点后,将通过5个综合案例实战来体会Python的实际应用。
第二章为数据分析基础篇,主要介绍Python数据分析基础以及相关的一些商业案例实战,主要将介绍数据分析的武器Numpy & Pandas库(重点是Pandas库),并将介绍如何通过pandas库实现常见的数据分析与办公自动化,最后通过一个商业案例实战 - 2020德勤人工智能组的笔试题熟悉Python数据分析与处理的技巧。
第三章为基础机器学习模型,主要讲解基础的机器学习模型,为之后的集成学习模型做铺垫,包括:线性回归模型、逻辑回归模型、决策树模型等。与此同时,我们将介绍多个实战案例来巩固相关知识点,并指导如何通过Python实现相关代码模型,实际案例包括:年龄与收入的线性回归模型、银行客户价值预测模型、客户流失预警模型、员工离职预测模型、银行客户违约预测模型、手写数字识别模型等内容。此外,我们还将介绍如何对模型进行评估(线性回归和逻辑回归模型中讲),以及如何进行模型参数调优(决策树模型中讲)。
第四章为集成机器学习模型,主要讲解进阶的机器学习模型:集成学习模型,这一版块是本课程的重点内容,因为在现实的商业案例实战中,往往用的便是集成机器学习模型。这一版块我们将讲解经典的集成模型:随机森林模型、AdaBoost模型、GBDT模型,以及新兴的集成模型:XGBoost模型与LightGBM模型。与此同时,我们将介绍多个实战案例来巩固相关知识点,并指导如何通过Python实现相关代码模型,实际案例包括:股票涨跌预测模型搭建(初级)、银行信用卡精准营销模型、银行金融反欺诈模型案例、产品定价模型、银行客户违约模型升级版、银行信用评分模型等内容。
第五章为特征工程与数据处理,主要讲解机器学习中非常重要的一个步骤:特征工程(或者叫数据预处理),这一版块也是本课程的重点内容,因为在现实的商业案例实战中,好的数据输入才能有好的模型结果。这一版块我们将讲解如何对非数值类型数据处理;如何对重复值、缺失值及异常值处理;如何进行数据标准化;如何进行数据分箱;如何根据WOE值与IV值进行特征筛选;如何分析与处理多重共线性问题;如何针对数据样本不均衡的问题进行过采样与欠采样。此外,我们还将介绍如何通过Python自动进行特征衍生与生成,简化建模数据处理过程。
第六章为非监督式学习模型,主要讲解机器学习里的一个独特内容:非监督式学习模型,这部分内容和之前的内容的区别在于其目标变量的缺失,对于这类数据有独有的建模方法,该方法就叫做非监督式学习模型,这里我们会讲解数据聚类与分群模型、智能推荐系统、关联分析模型。并通过多个案例来巩固相关知识点,包括:银行客户分群模型、金融产品智能推荐模型、金融产品交叉销售模型等。最后一节课我们将讲解神经网络模型(属于之前讲的监督式学习模型),为之后的深度学习模型的讲解做铺垫。
第七章为练习作业及考试部分,巩固之前学习到的相关数据挖掘与数据分析处理的相关知识点。