专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

给女朋友写的生统资料_Part3

生信媛  · 公众号  · 生物  · 2019-06-18 15:39

正文

请到「今天看啥」查看全文


因为生统中经常需要用到一些数据的提取,比如提取某一处理来做正态性检验等等。这些数据的提取本质上就是对某一行或者某一列的提取。所以这一部分我们来讲讲常见的数据提取。

R 里面的逻辑运算符

在讲数据提取之前,我们可能需要先了解一些逻辑运算符的基本知识。只有掌握了这些基本知识,才可以在后面灵活地提取出你想要的数据。

这一部分的内容参考了《R语言实战》的 4.3 部分,推荐大家去看看看

我们生统用到的逻辑运算符通常是大于,小于以及等于。符号分别是

运算符 描述
< 小于
<= 小于等于
> 大于
>= 大于等于
== 等于(注意等于并不是 = ,而是 == 。因为一个等号表达的是赋值或者传入参数)

当你利用逻辑运算符讲一个向量与数字进行比较的时候,R 就会返回给你 TRUE 或者 FALSE。

  1. > vector_0 c(1,2,3,4)

  2. > vector_0 > 2

  3. [1] FALSE FALSE TRUE TRUE

可以看到,凡是大于 2 的,都标明了 TRUE 。值得一提的是,等于不仅仅可以跟数字进行比较,还可以跟字符串进行比较。这在后面对数据框进行数据提取的时候,很有帮助。

  1. > vector_1 c(rep("A",2),rep("B",5))

  2. > vector_1

  3. [1] "A" "A" "B" "B" "B" "B" "B"

  4. > vector_1 == "A"

  5. [1] TRUE TRUE FALSE FALSE FALSE FALSE FALSE

实际上,R 里面还会有与、或、非等逻辑运算符。这对于数据框的提取也是很有帮助的,这个留待我们后面再讲。

向量的数据提取

讲完了逻辑运算符,我们就可以来提取数据了。我们之前介绍了两种生统常见的数据格式,一种是向量,另一种是数据框。我们这次先讲讲如何对向量来进行数据提取。

直接利用坐标提取

在 R 中最基本的数据提取手段就是利用 [] 这个符号。而在利用 [] 这个符号的时候,最简单的提取方式就是根据坐标进行提取了。我们先来尝试一下。

  1. # 创建一个向量

  2. > vector_2 c(1:10)

  3. > vector_2

  4. [1] 1 2 3 4 5 6 7 8 9 10

  5. # 让我们提取第1个数据,注意 R 是以 1 开头的,而不是以 0 开头的。

  6. > vector_2[1]

  7. [1] 1

  8. # 提取第2,3,4个数据

  9. > vector_2[2:4]

  10. [1] 2 3 4

  11. # 提取第2,5个数据

  12. > vector_2[2,5]

  13. Error in vector_2[2, 5] : incorrect number of dimensions

  14. > vector_2[c(2,5)]

  15. [1] 2 5

可以看到,我们在一开始提取 2,5 的时候,R 给了我们报错。是因为向量是一个一维的数据结构,而 [2,5] 这种提取适合的是数据框这种二维的数据结构,这一点我们在后面提取数据框数据的时候会提到。

简单来说,对于向量这种一维数据结构的提取,你并不能在 [] 里面使用逗号。所以,你如果想要提取不连续的坐标,就可以把不连续的坐标变成向量的形式放入 [] 里面。

利用which命令来提取

利用坐标的方式来提取有时候局限性会很大,因为有时候数据会很乱,利用坐标提取并没有什么用。比如下面的数据

  1. # sample等命令我们会在后面生统常见的命令那边提到

  2. > vector_3 sample(1:100,10)

  3. > vector_3

  4. [1] 31 24 61 36 65 44 60 3 74 8

如果我们想要提取这里面大于60的数字,我们用肉眼观察,然后得到坐标的方式就比较麻烦。这时候我们就可以让 R 来代替我们找到那些大于 60 的数字的坐标。

这里我们用到的是 which 命令。

  1. > which(vector_3 > 60)

  2. [1] 3 5 9

这样我们就得到了大于 60 的数字的坐标了。然后再传入 [] 里面,这样就可以跟之前利用坐标一样来提取数据了。

  1. > vector_3[which(vector_3 > 60)]

  2. [1] 61 65 74

利用TRUE和FALSE来进行提取

除了用 which 命令来提取,我们还可以利用 TRUE 和 FALSE 来进行提取。

  1. > vector_3 > 60

  2. [1] FALSE FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE

  3. > vector_3[vector_3 > 60]

  4. [1] 61 65 74

因为 TRUE 在 R 中和 T 是等价的,后面加参数的时候也是同理的。所以我在后面就会用 T 代表 TRUE了,FALSE 同理。

对于 TRUE 和 FALSE 这个类型的结果来说,有一个小彩蛋。就是我们可以把 T 和 F 传入 mean 和 sum 里面。

  1. # 统计有多少是大于 60 的。

  2. > sum(vector_3 > 60)

  3. [1] 3

  4. # 统计有百分之多少是大于 60 的。

  5. > mean(vector_3 > 60)

  6. [1] 0.3

可以看到,有 3 个数据是大于60,有 30% 的数据是大于60的。这对于大量数据的整体描述是一个非常好的小技巧。

参考文章:

  • 《R语言实战》4.3

下一节我会讲讲如何对数据框进行提取操作。

作者:城管大队哈队长

链接:https://www.jianshu.com/p/dbe9acdc9d2b








请到「今天看啥」查看全文