从我们
生信技能树
历年的几千个马拉松授课学员里面募集了一些优秀的创作者,某种意义来说是传承了我们生信技能树的知识整理和分享的思想!
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
1、R和Rstudio的安装
1.1 R的安装
下载R(链接:https://mirrors.tuna.tsinghua.edu.cn/CRAN/)
选择适合自己电脑版本的R(我的电脑是windows,所以点击“Download R for Windows”)
点击“base”是直接下载最新版本的R解释器(当前版本是4.3.3)。如果你想下载久版本可以点击“old contrib”。
下载完成后正常安装
1.2 Rstudio的安装
https://www.rstudio.com/products/rstudio/download/
R语言
是一种计算机编程语言,含有大量的工具包,可方便用户随意调用。R目前侧重于数据统计分析,所以在科研学术方面用的比较多。
Rstudio
是R语言的一种集成开发环境(IDE),提供图形界面,用于管理
R代码
和项目。具有语法校验、互补、图形可视化等功能。
Rstudio的界面包含四个小窗口,分别为
编辑器
、
控制台\终端
、
环境\历史记录
、
文件\绘图\包
。
2.1 创建第一个R项目(R project)
依次输入项目名称、设置项目路径、点击“
Create Project
”,就创建完成了。
# 突然想起来小洁老师上课介绍的一种学习方法:费曼学习法(输出和输入)。
创建R项目时可能会出现的错误(Error)
Error in if (file.exists(pythonPath)) return(pythonPath):
argument is of length zero
# 可能原因,曾经在Rstudio中使用过python
###
解决方法:
1.忽略
2.装python,但不用
3.设置选项(如下图所示)
###
2.2 Rstudio页面个性化设置
Tools >> Global Options >> Appeararce
2.3 与R的“交互”
交互式会话(session):相互独立的窗口,每一个窗口就是一个session。(微信里的每一个好友窗口)
tips: R卡住了点击Restart R,重启。
2.4 R运行和注释
光标放在命令行或者选中整条命令,然后点击Run(或者按快捷键ctrl+enter(windows))。
默认保存路径是R项目中的文件路径中,在右下角的files中可以看到。
一般读取文件时要注意文件所在的位置,如果位置写错了就会报错。
文件和当前项目在同一个目录下时,可以直接写文件名,不用添加路径。
当文件不在当前项目,而直接写文件名运行时就会报错,此时需要加上文件的路径(绝对路径或者相对路径)。
> X1 = read.csv('y.csv')
'''
Error in file(file, "rt") : cannot open the connection
In addition: Warning message:
In file(file, "rt") : cannot open file 'y.csv': No such file or directory
'''
-
卡住不动除了下面两种解决方法之后,还可以在任务管理器中停止Rstudio或者关机重启。
-
出现“+”号及时将命令补全或者退出。
-
红色不一定的报错,要注意区分(擦亮眼睛)。
-
在安装包时通常会出现,意思是让你更新所安装的包。在终端输入a/
s/n
就行。
R的错误类型千奇百怪,我们要做的不是认识某一种错误,而是要学习如何去分析R的报错,通过报错信息去修复bug。
3、数据类型和向量
3.1 数据类型
逻辑型(logical):T(TRUE)、F(FALSE)、NA(存在但未知的值)
# 课堂小试
## 1. 分别判断“a”、TRUE、3是什么数据类型?
## 提示:class(),将要判断的内容放进括号里
class(“a”) # "character"
class(TRUE) # "logical"
class(3) # "numeric"
class(NA) # "logical"
class(NULL) # 'NULL'
mode(“a”) # "character"
mode(TRUE) # "logical"
mode(3) # "numeric"
typeof('a') # "character"
typeof(3) # "double"
typeof(F) # "logical"
'''
mode():表示对象在内存中的存储类型;查看数据元素类型
class():是一种抽象类型,或者理解为一种数据结构(数据框,因子,列表)查看数据结构:vector、 matrix、array、dataframe、list
typeof(): 查看数据元素类型,基本等同于mode(),比mode()更为详细
'''
tips: 输入前几个字母时可以按"Tab"键补齐。对于函数和路径都适用。
3.2 逻辑型数据(返回逻辑型数据)
is.numeric() # 是否是数值型数据
is.logical() # 是否是逻辑型数据
is.character() # 是否是字符型数据
# 不要强R语言所难,转换的类型必须是可以转换的
as.numeric()
as.logical()
as.character()
3.3 多数据类型的组合
向量必须视为一个整体,一个向量只能有一种数据类型。如果有你填写了多种数据类型,就会按照等级最高的显示。
class(c(1,'3',T))
# 因为数据类型中等级最高的是字符串,所以该向量的类型是字符串
# "character"
4、脚本打开是乱码的解决方案
5、向量的生成
5.1 c()