最近几年
Python在国内引起了不小的轰动,应用非常广泛,并且入门非常简单。
在如今的时代,做数据相关工作不会
Python迟早会被淘汰;
在未来的人工智能中,
Python依旧可以发挥相当大的作用。
Python成为潮流语言不无原因:
1,全球前四大流行语言之一:
根据TIOBE最新排名,Python已超越C#,与Java,C,C++一起成为全球前四大最流行语言。
2,应用几乎无限制:
Python被广泛应用于后端开发,游戏开发,网站开发,科学运算,大数据分析,云计算,图形开发领域。
3,各方面地位超然:
Python在软件质量控制,提升开发效率,可移植性,组件集成,丰富库支持等各个方面均处于先进地位。
4,简单易学:
Python具有简单、易学、免费、开源、可移植、可扩展、可嵌入、面向对象等优势。
这个五月,
Python月,北京现场+全国远程,从Python编程基础,到数据清洗,爬虫专题,到算法与实战案例,四个等级课+一个专题课,Python学起来:
一,
Python概述 (0.5天)
注
: 本部分课程主要为Python语言的介绍及基础环境的安装配置。
0.1Python语言介绍、Anaconda科学计算集成介绍安装
0.2Python编译器、Shell、编辑器介绍
0.3Python的第三方包的管理
0.4Python在数据分析领域的生态介绍
二,
Python编程基础 (3.5天)
注
: 本部分主要为讲解Python的基础编程知识,侧重于Python数据分析常用的功能和知识点进行讲解。
课程安排
:
1.1 Python语言特点
1.2 Python的数据类型和变量
1.3 Python中的运算
1.4 Python的数据结构
1.5 Python的控制流语句
1.6 Python中的异常处理和调试
1.7函数调用和定义以及函数的参数
1.8 Python的类和面向对象编程
1.9 Python的文件、模块操作
1.10其他高级特性
练习项目
:
-蒙特卡罗模拟求圆周率
-冒泡算法和二分查找
-实现计算器
-堆栈和队列的实现
-模拟实现ATM机取钱
-求阶乘
-模拟管理学生成绩信息
-编程实现24点扑克游戏
-会员信息管理的实现
-虚拟水果店进销存系统
-投票系统
-汉诺塔问题
-离散事件模拟
-堆排序的实现
5月13-15日三天 北京/远程 2400/2000
一,
Numpy(Numerical Python)是高性能科学计算和数据分析的基础包,是数据分析几乎所有的高级工具的构建基础。
Numpy基础
-Numpy的ndarray
-数组的索引和切片
-数组的运算
-常用的数组方法
二,
Pandas包提供了大量能使我们快速便捷地处理数据的函数和方法,它是Python成为强大而高效的数据分析环境的重要因素之一。
Pandas基础应用
-Series数据结构
-DataFrame数据结构
-基本功能
-汇总和计算统计描述
-缺失值的处理
Pandas数据规整
-数据加载&输出
-数据集的合并
-数据集的重塑
-数据重构
Pandas分组运算
-GroupBy技术
-数据聚合
-分组级运算和转换
-透视表和交叉表
一,
Python静态网页解析的学习
·
该部分课程讲解如何解析静态网页
(beautifulsoup), 对最常用的部分进行重点讲解, 以保证学员在没有HTML语言的基础下依旧能够较好的完成网页的解析工作.
·
该部分课程在讲解时会结合实际的网页进行操作
, 需要学员随堂一起操作.
·
本部分需要学员安装
Chrome浏览器, 以便在爬取网页时方便进行调试.
·
本部分涉及少量的
HTML知识, 学员可提前做一个了解(但不是必须的).
·
本部分涉及少量数据库知识
, 学员可提前了解, 为提高教学质量, 保证学员能够在自己的电脑上完成爬取和存储, 本部分采用Python内置数据库sqlite3. 从而避免学员自己电脑上未安装数据库导致无法跟上的问题.
·
该部分课程需要学员随堂一起练习
.
·
本部分课程需要掌握的要点如下
:
·
静态网页的请求以及基础的网页的结构
(requests库, urllib库)
·
静态网页如何进行解析
(beautifulsoup库)
·
如何将数据保存到数据库
二,
Python动态网页的抓取
·
该部分课程主要讲解动态加载的网页如何进行处理
.(selenium库)
·
常用的动态网页的处理方法
.
·
提高爬取速度
, 无头浏览器的使用.(PhantomJS的安装使用)
·
该部分需要学员额外安装
selenium库, 以及PhantomJS软件.
Level 4-Python数据挖掘,
算法及案例
5月27-30日四天 北京/远程 4200/3600
Python案例分析大全(但不局限于):
1.文本挖掘原理和案例-数据可视化的各种方式
2.预测分析核心算法-Python图片结构和分析(图片的k-means聚类分析)
3.机器学习经典算法-图片的识别和分类:PCA建模
4.Python概率统计-二维手写数字识别(KNN方法)
5.数据可视化-推荐系统的构建(最近邻方法、协同过滤)
6.Python经典金融分析-垃圾短信或邮件的识别与分类(Logistic对文本的分类)
7.Python量化投资-新闻的文本分类(TF-IDF准则、旅游新闻个性化推荐)
8.算法和模型的优化-人脸识别
9.模型精度评估和提升-朴素贝叶斯决策
10.特征选取的方法-酒的品质分类预测
11.最佳k-means分类数-机器学习的格点搜索和参数寻优
12.交叉验证(CV)-惩罚线性回归分类器
13.不平衡数据处理-使用支持向量机识别和分类
14.XGBoost-时间序列预测案例
15.贝叶斯分析-机器集成学习算法案例
16.逼近和最优化-Python随机模拟案例
17.概率图模型-Python金融分析案例
18.马尔科夫&蒙特卡罗-使用Python进行量化投资案例
第
1天
上午
机器学习基础原理
1.1
机器学习、数据挖掘概述
1.2
机器学习、数据挖掘和大数据的关系
1.3典型机器学习应用
1.4
机器学习基本思想与原理
1.4.1主要流派
1.4.2
类别
(监督算法/无监督算法/组合算法/强化学习)
1.5 Python语法(编程)
1.5.1
数据类型
1.5.2数据结构
1.5.3
函数与模块
1.6
构建建模用宽表的过程
案例
1:
基于原始数据的贷款违约建模全流程
第
1天
下午
回归算法
2.1
回归算法原理与要点
2.1.1
线性回归与逻辑回归
2.1.2最小二乘法与极大似然法
2.1.3岭回归
2.2
分类模型的评估方法
:
2.2.1
混淆矩阵
\准确率\召回率\特效性\精度\ROC\Lift\KS
案例
2
:
信用卡客户价值预测模型
案例
3:
电信流失客户预测模型
第
2天
上午
分类器与决策树
3.1
分类器
:
3.1.1
朴素贝叶斯