R语言数据分析及绘图专题学习会
2017年4月21-23日 上海徐汇瑞峰酒店 报名方法见文末
同期还将举办“整合思维法制作科研插图学习会”,“基因编辑技术专题学习会”有需要者可联系我们。
R语言学习会开展背景
使用R语言软件的科研文献数量在近十五年来出现了飞速的上涨,包括生命科学、农业、遗传、环境、免疫、微生物、数学、神经科学、地球科学、天体科学、社会学、经济学、生态学、生物信息学等等众多科研学科。我们如今反复听说的大数据分析、数据挖掘、生物信息学分析及绘图、高通量测序数据分析等都首选使用到R语言来完成,因为R具有强大的数据分析统计和绘图功能。尽管R语言的历史不长,但以其开源、自由、免费等特点已经风靡全球,逐渐成为科学家的第二语言。目前R的使用者呈几何级数增加。R语言也逐步受到国内科研工作者,特别是青年学者和研究生的青睐。
尽管越来越多的科研工作者希望学习和使用R语言,但大多不知如何入手学习,更谈不上灵活应用。为了让科研工作者了解和使用R,莫速乎教育在2017年4月21-23日在上海举办“R语言数据分析及绘图专题学习会”,目的在于让R的初学者尽快掌握R的用法并熟练应用到自己的研究当中。主讲老师将会在三天的时间内,通过多个生动的案例从入门到深入循序渐进的让您掌握R的统计、数据分析和绘图功能。无论您是R语言初学者还是有一定基础都将受益良多。
本次研讨会主办及承办单位:
莫速乎教育(上海莫速乎教育投资有限公司)
上海荆麦信息科技中心
会议目的
让科研工作者从零基础了解R,并通过三整天的时间循序渐进逐渐深入的掌握R,并逐渐学会用R解决科研中的数据分析、统计及绘图问题。
主讲老师简介
许教授,合肥工业大学教授、博士生导师,天津大学兼职博士生导师,山西大学兼职教授,国内及国际多本杂志审稿人,已参编并出版多部统计及R软件相关书籍。在R语言方面具有很高的造诣。
课程安排
课程将会从软件安装开始逐步深入并自带电脑同步练习。即使您没有任何基础也不必畏惧。课程将会以案例为主导,由浅入深的案例将您逐步带入R语言软件的天堂,学会用R语言解决常见的数据分析、统计及绘图问题。以下内容仅供参考,具体会根据现场学员的反馈情况适当调整。
时间
|
模块
|
授课题目
|
授课内容
|
4月21日
|
模块1:R语言基础
|
1.1 R语言概述
|
历史发展,社区情况,语言特点,成功案例。
|
1.2 R语言软件安装
|
安装R软件、R Studio软件,认识软件平台,阐述语言特点,创造R项目。
|
1.3 R语言包的安装
|
R包概念,R包安装,R包加载,R包查找,R函数(函数结构、经典的R函数)。
|
1.4 R语言功能与应用
|
大数据分析,图形处理,与其他软件接口,主要应用领域。
|
1.5 R语言资源和帮助文档
|
R主页,R社区,R在线帮助,R离线帮助。
|
模块2:R语言基本操作
|
2.1 环境设置
|
工作路径(查找、更改),工作内存(查看、清理)。
|
2.2 对象操作
|
向量,矩阵,数组,数据框,列表,公式等。
|
2.3 数据结构与操作
|
定量数据(numeric or integer),定序数据(ordered, like integers),定类数据(categorical, nominal, or factor)。数据类型,数据显示,数据维度,数据查找(缺失值等),数据选取(子集),变量名称,样本名称等。
|
2.4 数据读取与保存
|
手动添加,数据导入(文件读取、数据库对接),互联网抓取。数据保存,数据导出。
|
模块3:R语言函数编程
|
3.1 控制语句
|
条件与条件语句,循环以及嵌套语句,循环控制语句。
|
3.2 自定义函数
|
函数语法,函数结构,定义规则,参数类型(形参、实参、默认参数、返回值),变量作用域(全局变量与局部变量)。
|
3.3 编程与调试
|
脚本编写,函数加载,程序运行,程序调试。
|
4月22日
|
模块4:R语言数据分析
|
4.1 R语言数据处理
|
数据加载,数据匹配,数据清洗,数据选取,数据抽样,数据转换,数据生成,数据补齐,频率转换。
|
4.2 R语言探索性分析
|
描述统计,分布特征,相关分析,关联规则,聚类分析,图形展示(直方图、箱线图、散点图、条件图)。
|
4.3 R语言随机模拟
|
随机数种子,随机数生成,Monte Carlo模拟,Bootstrap方法。
|
4.4 R语言统计分析
|
参数统计方法:统计推断(参数估计、假设检验),方差分析,回归分析,主成分分析,因子分析,聚类分析。非参数统计方法:核密度估计,卡方拟合优度检验,列联表分析,Wilcoxon符号秩检验,Mann-Whitney-Wilcoxon秩和检验,Spearman等级相关,Kruskal-Wallis方差分析。
|
4月23日
|
4.5 R语言现代计算
|
数据挖掘:Logistic回归,K-means聚类,KNN分类,决策树,随机森林。
统计学习(机器学习):交叉验证,LASSO回归,神经网络,支持向量机,bagging,Boosting。
|
模块5:R语言可视化
|
5.1 R语言绘图基础
|
绘图函数,绘图参数,图形控制,图形输出,经典图形制作。
|
5.2 R语言ggplot2绘图
|
ggplot2绘图理念,ggplot2包概述,高级绘图函数,低级绘图函数,交互式绘图函数,ggplot2编程,经典图形制作。
|
模块6:大数据案例分析——R语言应用
|
6.1 案例背景
|
案例介绍,数据来源,数据展示。
|
6.2 案例操作
|
研究目标,研究内容,模型算法,大数据集,数据分析,研究结果。
|
6.3 案例讨论
|
|
6.4 现场答疑
|
|
会议具体事项
研讨会时间地点
上海: 上海徐汇瑞峰酒店
上海市徐汇区肇嘉浜路7号(地铁9号线,打浦桥站3号口出十字交叉路口对面)
2017年4月21日~23日 (20日报到)
参会对象