学习R有几个月了,总算是摸着了一点门道。
写一些自己的心得和经验,方便自己进一步鼓捣R。如果有人看到我写的东西而得到了帮助,那就更好了。
R是一个数据分析软件。简单点说,R可以看做MATLAB的“替代品”,而且具有免费开源的优势。R可以像MATLAB一样解决有关数值计算的问题,而且具有强大的数据处理,绘图功能。
R拥有大量的统计分析工具包,我的感觉是——只有我们没听说过的工具,绝对没有R没有的工具包。配合着各种各样的工具包,你可以毁灭任何关于数据和统计的问题。因为数据包的数量庞大,所以查找自己需要的数据包,可能很烦恼。
1.已经了解些高级程序语言(非常重要)
2.英语不坏
3.概率统计理论基础
4.看数据不头疼
5.看cmd or terminal 也不头疼
我开始学习R的时候,找到了这个帖子
http://www.ppvke.com/Blog/archives/2373
非常强大的关于R语言教材综述。我非常感谢原帖作者。你可以参考这个帖子选一本适合你的教材。
我这里在说一下我主要使用的几本教材的心得:
1. 统计建模与R软件(薛毅著):非常优秀的R语言入门教材,涵盖了所有R的基础应用&方法,示例代码也很优秀。作为一本中文的程序语言教材,绝对是最优秀的之一。但是要看懂这本书,还是需要“已经了解些高级程序语言”。PS:我亲爱的吉林大学图书馆,有两本该教材流通,我常年霸占一本。
2. R in Nutshell:从讲解内容上看,与上一本差别不大,在R语言的应用上都是比较初级的入门,但是有些R软件&语言上的特性,写得比薛毅老师的教材深刻。这本书最大的优点就是工具书,方便开始入门时候,对有些“模棱两可”的东西的查询。PS:我将这本书打印了出来,简单的从头到尾翻过,最大的用途就是像一本字典一样查询。
3. GGplot2 Elegant Graphics for Data:这是一本介绍如何使用ggplot2包,进行绘图的书。ggplot2包,非常强大的绘图工具,几乎可以操作任何图中的元素,而且是提供添加图层的方式让我们可以一步步的作图。提到ggplot2包,应该提到一个词——“潜力无穷”,每一个介绍ggplot2的人,都会用这个形容词。这本书最大的作用也是当做一本绘图相关的工具书,书中讲解详细,细致,每个小参数的变动都会配图帮你理解。PS:这本书我也打印出来了,非常适合查询。
1.R-bloggers: http://www.r-bloggers.com/ 这里有关于R和数据的一切讨论,前沿的问题,基础的问题,应有尽有。可以说这些家伙们让R变得越来越强大。我RSS了这个网站,每天都看一下有什么我感兴趣的方法和话题,慢慢的积累一些知识,是一个很有意思的过程。
2.统计之都:http://cos.name/cn/ 这是一个有大量R使用者交流的论坛,你可以上去提问题,总有好心人来帮助你的。
3.R客: 是关于R的一个博客,更新不快,偏重国内R的一些发展。
如果你看见terminal or cmd就打怵的话,一定要使用Rstudio。Rstudio的优点是,集成了Rconsole、脚本编辑器、可视化的数据查询、历史命令、帮助查询等,还有的完美的脚本和console的互动。毕竟是可视化的界面,有许多按钮可以用。R 的脚本编辑器很蛋疼,就比记事本多了个颜色高亮吧,不适合编写脚本,但适合调试脚本。
最后,说一下,刚开始学习R或者其他什么语言,都有一个通病,就是一些小细节的不知道,或者是记得不清楚,往往一个蛋疼的bug就可以耗掉大量的时间,这是一个让人想砸电脑的过程。我往后,会在博客里记录一些让我蛋很疼的小细节。
来源:http://blog.sina.com.cn/s/blog_744c2fb701014s55.html
CDA数据分析研究院结合市场需求开设R语言数据分析和数据挖掘两个专题课程,从零开始,由浅入深,包括初级语法及统计入门、中级建模方法进阶、高级案例应用三个阶段。如果你对R语言有兴趣,欢迎过来学习。
R语言最近开课:
(CDA LEVEL I R 数据分析)
深圳:2017年6月03日~6月25日(周末8天)
上海:2017年6月24日~7月16日
北京:2017年7月09日~7月31日
授课安排:现场班6900元,远程班4900元
(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式
(2) 授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑)
(3)学习期限:现场与视频结合,长期学习加练习答疑。
1.在线填写报名信息
官网端:
微信端:
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
第一阶段:数据分析概念与R编程
1.商业数据分析的本质
2.R介绍、R与RStudio安装
3.R语言编程与数据整合
4.R基本数据类型
5.R基本数据结构
6.R程序控制
7.函数与包
8.数据合并与规整
第二阶段:数理统计与SQL数据库
1.R语言编程与数据整合
2.SQL及关系型数据库基本概念
3.SQL语言与R SQL实现
4.描述性统计分析和特征选取
5.描述统计与探索数据分析
6.APPLY函数族
7.R基础绘图包
a.案例:畅销品分析
b.案例:产品销售情况指标分析
第三阶段:数理统计与数据可视化
1.描述性统计分析和特征选取
2.GGplot2绘图介绍
3.使用SQL进行数据汇总
4.统计推断基础
5.假设检验与单样本T检验
6.两样本T检验
7.方差分析
a.案例:产品销售情况指标展现
b.案例:房价影响因素分析
第四阶段:统计推断与精益管理
1.统计推断基础
2.相关分析、卡方检验
3.简单线性回归
4.精益化管理
5.Dashboard 设计与应用
6.特设分析(Ad Hoc Analysis)
7.对比测试(A/B testing)
a.案例:基于宏观经济指标的产品产量预测模型
b.案例:注册方式对客户转化率的影响
第五阶段:市场分析方法与模式识别模型
1.市场调研与数据采集方法
2.连续变量间关系探索与压缩
3.聚类分析(客户分群)
4.对应分析与多维尺度
a.案例:信贷综合打分
b.案例:各地经济发展数据分析
第六阶段:客户分析方法与分类模型
1.线性回归介绍
2.线性回归诊断
3.分类变量分析
a.案例:信用卡客户价值预测
b.案例:电信客户流失预测
第七阶段:时间序列与综合案例
1.时间序列的定义
2.指数平滑法
3.时间序列模型ARIMA方法
4.信用卡产能预测案例
5.营销效果评估
6.某品牌香烟市场调研案例
7.业务数据分析师课程总结
a.案例:人口数据预测
b.案例:航空公司客运量预测
如果你有R语言统计分析和业务分析的基础,对R数据挖掘和模型的知识有兴趣,也欢迎报名参加R数据挖掘的课程:
http://www.cda.cn/kecheng/31.html
1级2级连报更有8折优惠!
常国珍
CDA数据分析师讲师/北京大学商学博士
曾就职于亚信科技商业运营咨询部(BOC)、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集市与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
曾珂
CDA数据分析研究院讲师/管理科学工程硕士
从事数据分析与数据挖掘的研究与教学,研究方向为互联网、电子商务数据分析与挖掘,擅长基于客户关系管理的数据挖掘、数据可视化、文本挖掘。
电话:010-68411404
手机:18511302788(王老师)
QQ:2315561922
18811331062(田老师)
QQ:2881989709
邮箱:[email protected]
[email protected]
—— Join Learn!