本系列短文是应王琰之邀而写的,面向没有怎么用过R与RStudio来进行数据处理的社会科学类本科生和研究生,以之替代传统的SPSS或Stata软件。所有文章不涉及太复杂的推论性统计内容,只介绍基础的t检验与方差分析,而更专注于基础的数据处理方面的R应用,统计上只需要描述统计和简单的假设检验基础(大二水平)即可。此系列中较多涉及tidyverse风格和Hadley Wichham开发的R包,我以为这种风格和代码习惯是简洁有效且较为人性化的,值得推广。每次课程,分由两个帖子叙述。一是正式的、简洁的、标准化文体的文档;一是非正式的、不规律的、个人化的所谓“私房经验”,或长或短。另外,我喜欢花很多时间配置R的周边软件,美其名曰“优化数据处理生态”。希望此系列推文能够帮助初学者更多地了解R及相关开源统计软件,并进一步提升国内社会科学界对科研工具的版权意识与开源意识。
暂定以下主题,共10次课。视实际情况可能略有变动。
1. 工欲善其事:R与RStudio简介及相关软件资源
2. “万物起源于数”:R中的数据类型
3. It’s All about the Fundamentals:R中的基础命令
4. 一夫当关万夫放马过来:R中的数据导入与导出
5. 数据整洁之道:tidyverse风格简介
6. 数据管理“大杀器”:dplyr包简介
7. 文本数据“百词斩”:stringr包简介
8. 时间数据“小李飞刀”:lubridate包简介
9. 网络数据“爬行家”:rvest包简介
10. 千里之行始于t与ANOVA:线性模型基础
作者简介:吕小康,南开大学周恩来政府管理学院社会心理学系副教授,目前主要从事医患关系相关主题的研究。有多年R语言基础统计课程教学经验。联系方式:[email protected]。同时欢迎参看内容稀少的个人博客:xkdog.github.io及本人GitHub上的相关repo。
本系列短文同时由南开大学社会心理学系2015级本科生黄妍、翟春晖、张子睿、张雪丽等同学参与撰写编辑,在此一并致谢。
编辑:潘雨 张柏杨
· · · · · ·