专栏名称: 生信媛

生信媛，从1人分享，到8人同行。坚持分享生信入门方法与课程，持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。

给女朋友写的生统资料_Part3

生信媛 · 公众号 · 生物 · 2019-06-18 15:39

正文

请到「今天看啥」查看全文

因为生统中经常需要用到一些数据的提取，比如提取某一处理来做正态性检验等等。这些数据的提取本质上就是对某一行或者某一列的提取。所以这一部分我们来讲讲常见的数据提取。

R 里面的逻辑运算符

在讲数据提取之前，我们可能需要先了解一些逻辑运算符的基本知识。只有掌握了这些基本知识，才可以在后面灵活地提取出你想要的数据。

这一部分的内容参考了《R语言实战》的 4.3 部分，推荐大家去看看看

我们生统用到的逻辑运算符通常是大于，小于以及等于。符号分别是

运算符	描述
<	小于
<=	小于等于
>	大于
>=	大于等于
==	等于（注意等于并不是 = ，而是 == 。因为一个等号表达的是赋值或者传入参数）

当你利用逻辑运算符讲一个向量与数字进行比较的时候，R 就会返回给你 TRUE 或者 FALSE。

> vector_0  c(1,2,3,4)
> vector_0 > 2
[1] FALSE FALSE  TRUE  TRUE

可以看到，凡是大于 2 的，都标明了 TRUE 。值得一提的是，等于不仅仅可以跟数字进行比较，还可以跟字符串进行比较。这在后面对数据框进行数据提取的时候，很有帮助。

> vector_1  c(rep("A",2),rep("B",5))
> vector_1
[1] "A" "A" "B" "B" "B" "B" "B"
> vector_1 == 




    
"A"
[1]  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE

实际上，R 里面还会有与、或、非等逻辑运算符。这对于数据框的提取也是很有帮助的，这个留待我们后面再讲。

向量的数据提取

讲完了逻辑运算符，我们就可以来提取数据了。我们之前介绍了两种生统常见的数据格式，一种是向量，另一种是数据框。我们这次先讲讲如何对向量来进行数据提取。

直接利用坐标提取

在 R 中最基本的数据提取手段就是利用 [] 这个符号。而在利用 [] 这个符号的时候，最简单的提取方式就是根据坐标进行提取了。我们先来尝试一下。

# 创建一个向量
> vector_2  c(1:10)
> vector_2
 [1]  1  2  3  4  5  6  7  8  9 10
# 让我们提取第1个数据，注意 R 是以 1 开头的，而不是以 0 开头的。
> vector_2[1]
[1] 1
# 提取第2,3,4个数据
> vector_2[2:4]
[1] 2 3 4




    
# 提取第2,5个数据
> vector_2[2,5]
Error in vector_2[2, 5] : incorrect number of dimensions
> vector_2[c(2,5)]
[1] 2 5

可以看到，我们在一开始提取 2,5 的时候，R 给了我们报错。是因为向量是一个一维的数据结构，而 [2,5] 这种提取适合的是数据框这种二维的数据结构，这一点我们在后面提取数据框数据的时候会提到。

简单来说，对于向量这种一维数据结构的提取，你并不能在 [] 里面使用逗号。所以，你如果想要提取不连续的坐标，就可以把不连续的坐标变成向量的形式放入 [] 里面。

利用which命令来提取

利用坐标的方式来提取有时候局限性会很大，因为有时候数据会很乱，利用坐标提取并没有什么用。比如下面的数据

# sample等命令我们会在后面生统常见的命令那边提到
> vector_3  sample(1:100,10)
> vector_3
 [1] 31 24 61 36 65 44 60  3 74  8

如果我们想要提取这里面大于60的数字，我们用肉眼观察，然后得到坐标的方式就比较麻烦。这时候我们就可以让 R 来代替我们找到那些大于 60 的数字的坐标。

这里我们用到的是 which 命令。

> which(vector_3 > 60)
[1] 3 5 9

这样我们就得到了大于 60 的数字的坐标了。然后再传入 [] 里面，这样就可以跟之前利用坐标一样来提取数据了。

> vector_3[which(vector_3 > 60)]
[1] 61 65 74

利用TRUE和FALSE来进行提取

除了用 which 命令来提取，我们还可以利用 TRUE 和 FALSE 来进行提取。

> vector_3 > 60
 [1] FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE
> vector_3[vector_3 > 60]
[1] 61 65 74

因为 TRUE 在 R 中和 T 是等价的，后面加参数的时候也是同理的。所以我在后面就会用 T 代表 TRUE了，FALSE 同理。

对于 TRUE 和 FALSE 这个类型的结果来说，有一个小彩蛋。就是我们可以把 T 和 F 传入 mean 和 sum 里面。

# 统计有多少是大于 60 的。
> sum(vector_3 > 60)
[1] 3
# 统计有百分之多少是大于 60 的。
> mean(vector_3 > 60)
[1] 0.3

可以看到，有 3 个数据是大于60，有 30% 的数据是大于60的。这对于大量数据的整体描述是一个非常好的小技巧。

参考文章：

《R语言实战》4.3

下一节我会讲讲如何对数据框进行提取操作。

作者：城管大队哈队长

链接：https://www.jianshu.com/p/dbe9acdc9d2b