2012年的时候我们说R是学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。
-
Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。
-
Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange Canvas 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。
-
现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。于是,近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。
总的来说Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
Python 已经成为越来越多美国顶级大学的计算机编程入门语言了。美国计算机排名顶尖的麻省理工学院和加州大学伯克利分校已经将他们的计算机编程入门教学语言改为了 Python。
三大 MOOC 提供商(edX、Cousera、Udacity)都提供使用Python 教学的计算机编程入门课程。同时,不同专业领域的教授也都倡导使用 Python 作为入门语言进行教学。
So,作为一门“赶时髦”&“实用”的计量工具课程,本次Python统计与计量经济分析并不打算讲多么高深的编程基础,只单纯希望跟大家聊聊使用Python如何完美构造各种计量模型,并针对结果给出合理的解释~
这门课不需要太多计量基础,我们将尝试用大白话告诉大家,什么样的分析数据适用于什么样的计量模型,什么样的模型匹配什么样的检验方法;也不需要太多编程基础,有没有学过C语言,有没有其他语言基础,都不要紧~
Python社会统计与计量分析
——用Python 说话“算数”
培训时间:
2017年4月30-5月3日 (四天)
培训地点:
上海市南京东路附近培训教室
培训费用:
3200元 / 2600元 (仅限全日制本科生和硕士研究生);食宿自理
授课安排:
上午9:00至12:00; 下午1:30至4:30; 答疑4:30至5:00
特别赠送:
Python统计计量视频(价值1500元)
阎老师,长期从事数据分析的理论研究、教学和实践工作。
长期关注Python的发展和国内外各行业的应用情况,一直保持着与统计应用前沿的密切接触,在数据挖掘应用、市场研究应用等领域经验丰富。
擅长企业数据分析和企业诊断,参与多项国家级、省级课题的科研工作,曾任多家电商企业的运营顾问和培训师,积累了大量实战经验。
Part-1 Python初探
01. Python语法结构概览
教学内容:
兼顾应用广泛的Python 2.x与日益兴盛的Python 3.x,从最基本的原理和语法格式入手, 教授Python的基础内容。
教学目的:
深入Python的流程控制语句,夯实基础,这部分内容将贯穿课程始终,熟练到就算没有开放的扩展库,自己也能根据公式做模型。
1.1 一个概览式的例子
1.2 基本语法与数据
1.3 条件与条件语句
1.4 循环与嵌套
1.5 循环控制语句
02. Python函数与数据结构
教学内容:
Python基础的核心内容。
教学目的:
了解各类函数、参数和变量的区别和联系,能够提升编程质量,使内容更加完善与流畅。
2.1 认识与定义函数
2.2 参数形式与返回值
2.3 内置函数形式
2.4 变量类型及应用
2.5 数据结构及应用
03. 数据处理与计算
教学内容:
介绍的丰富且成熟的第三方扩展库,解读数据分析的逻辑和分析结果。
教学目的:
学会使用Python进行更加便捷的数理统计与计量分析,结果更加全面,解释性更强。
3.1 常用模块概览
3.2 数据的导入与导出
3.3 描述性数据统计
3.4 两总体对比推断
3.5 方差分析
3.6 卡方检验
3.7 非参数统计分析
04. 数据清洗
教学内容:
检查数据一致性、处理无效值和各种填补缺失值的方式。
教学目的:
迈出数据处理的第一步,能够识别并处理不清洁的数据,使数据更有利于后续的数据分析与挖掘。
4.1 数据的整理
4.2 数据的集成
4.3 原始数据变换
4.4 数据归约
4.5 处理缺失值
Part-2 关于截面数据
05. 线性回归模型
教学内容:
学会使用最单纯也是最实用且频频出现在Top期刊中的线性回归模型。
教学目的:
学会使用Python固定语句进行回归,合理地构建模型、选择变量、解释结果。
5.1 小样本&大样本OLS
5.2 使用虚拟变量
5.3 非线性回归处理
5.4 异方差
5.5 自相关
5.6 主成分分析(PCA)与因子分析(FA)
06. 内生性的解决办法
教学内容:
处理各类研究中如影随形的内生性问题。
教学目的:
能够完爆一个内生性,并使用Python处理内生性,使论文轻松达到“A-level”。
6.1 工具变量法(IV)
6.2 两阶段最小二乘拆解内生性(2SLS)
6.3 广义矩估计(GMM)
6.4 倍分法
07. 离散变量模型
教学内容:
介绍最早的离散选择模型——Logit/Probit模型,这是很多0/1选择问题的主要方法,也是社会学、心理学、经济学、市场营销等统计实证分析的常用方法。
教学目的:
学会针对不同的问题选择合适的离散选择模型解决问题,并解释结果。
7.1 二值型Logit/Probit模型
7.2 多值型Logit/Probit模型
7.3. 定序Logit/Probit模型
7.4 计数模型
Part-3 关于时间序列
08. 平稳时间序列分析
教学内容:
时间序列分析的基础,一般的时间序列分析往往都是针对平稳序列,对于一些非平稳序列,也会通过某些变换转成平稳序列来处理。