专栏名称: 生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

生信入门（三）

生信技能树 · 公众号 · · 2024-06-15 08:56

正文

从我们生信技能树历年的几千个马拉松授课学员里面募集了一些优秀的创作者，某种意义来说是传承了我们生信技能树的知识整理和分享的思想！

今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦，还有互动练习题哈，欢迎大家点击文末的阅读原文去关注我们学员的公众号哦！

1、向量Vector——一维

向量中只允许存在一种数据类型，即使你写了多种数据类型也会被同化。

a 1,5,'a',T)class(a)# "character"

2、"表格"（矩阵matrix）——二维

矩阵只允许一种数据类型

多个矩阵组成一个数组（array）

（一）matrix

（二）array

2.1 矩阵新建和取子集

m <- matrix(1:9, nrow=3)

矩阵的取子集不能用$。

m[2,]# 2 5 8
m[,1]# 1 2 3
m[2,3]# 8
m[2:3,1:2]

2.2 矩阵的转置和转换

# 转置t(m)
# 转换as.data.frame(m)

tips：R语言里的修改，都要赋值，没有赋值就没有发生过。

2.3 矩阵画热图

pheatmap::pheatmap(m)# 默认聚类
pheatmap::pheatmap(m, cluster_cols = F,cluster_rows = F)# 不聚类

3、数据框data.frame——二维

每列只允许一种数据类型，数据框的每一列和每一行都是一个向量。

3.1 数据框的来源

内置数据：

irislettersLRTTERSvolcano

新建数据框：

df 'geme', 1:4),                change = rep(c('up', 'down'), each = 2),                score = c(2,6,9,2))# 变量名只起提示作用，不起决定作用。

从文件中读取数据框：

df 'gene.csv')# 这里的gene.csv必须在工作目录下# 如果不在工作目录下就需要指定文件路径或者复制到工作目录下

数据框属性：

dim(df)# 4 3
colnames(df)# "gene"    "change"  "score"   
rownames(df)# "1" "2" "3" "4"
nrow(df)# 4
ncol(df)# 3

数据框取子集：

### 按照列名df$score# 输入$号后，可以使用tab键来选择列名
### 按照坐标# 取第二行，第一列df[2,1]# 取第一行df[1,]# 取第四列df[,4]# 取多行多列df[c(1,3), 1:2]
第二种方法如果用在向量中会报错，因为向量只有一个维度，只能x[1]
# 按名字df[,'gene']df[,c('gene','score')]
# 按照逻辑值取子集k $scores>0df[k,]
df$gene[k]

3.2 数据框的修改

# 当列名不存在时就会在最后面新增一个列df$p.value 
# 当列名存在是就会修改该列的数据df$change 'up', 'no', 'down', 'no')

修改列名和行名：

# 修改全部行名rownames(df) 'rol1', 'rol2', 'rol3', 'rol4')# 修改第二列的列名colnames(df)[2] 'change'

3.3 两个数据框的连接

（一）有共同的列名

merge_df = merge(df1, df2, by='name')

只合并两个数据框中共有的name。

（二）没有共同列名

方法一、手动修改列名，再使用merge()合并

colnames(df3)[1] 'name'merge(df1, df3, by='name')

方法二、左连接、右连接、取交集

merge(df1, df3, by.x = 'name', by.y = "NAME")# df1对应by.x；df3对应by.ymerge(df1, df3, by = 1)

4、列表list：可装万物

列表可以包含数据框、矩阵、列表、向量

x <-

生信入门（三）

正文

请到「今天看啥」查看全文