GEO数据挖掘系列,第9篇学习笔记:下载数据
为了无缝衔接第8篇学习笔记,该文中的序号将接着上一篇来标注
首先感谢曾老师对小宇学习生信的支持与鼓励!昨天我的学习笔记刚发布,曾老师就根据这篇笔记告诉了我额外的代码方法,于是在开启本篇之前,在此进行补充
0.5 补充
以下代码同样是R包的批量安装和加载,整体思路不变,有两处需要注意
#打包CRAN的R包并下载
cran.packages 'knitr', 'mixOmics', 'xtable', 'ggplot2', 'vegan', 'cluster',
'gridExtra', 'pheatmap', 'ruv', 'lmerTest', 'bapred')
install.packages(cran.packages)
#打包bioconductor的R包并下载
bioconductor.packages 'sva', 'limma', 'AgiMicroRna',
'variancePartition', 'pvca')
if (!requireNamespace('BiocManager', quietly = TRUE))
install.packages('BiocManager')
BiocManager::install(bioconductor.packages, version = '3.18')
# install.packages('pacman')
library(pacman)
# p_load()会加载列表中的所有包
pacman::p_load(char = cran.packages)
pacman::p_load(char = bioconductor.packages)
①
Bioconductor
是3.18版本
如果是3.17及以下版本,可能会出现如图0蓝色框中的类似报错,而使用3.18版本能解决这个问题
图1
②
pacman
该R包是一个R包管理器,用于加载和安装其他包;该包含有安装、加载、更新、删除、搜索R包的函数;此处使用了
pacman
包的
p_load()
函数而不用循环,让代码更简洁
1.下载数据
1.1准备阶段
清空环境中的全部变量
rm(list = ls())
R语言的默认设置:若1分钟之内没下载好,就会暂停下载
打破下载时间的限制,改前60秒,改后10w秒(改成多少秒都行,最好将时间设置久点)
options(timeout = 100000)
不要以科学计数法表示,因为后续要检查数字的范围,用科学计数法更便于观察
options(scipen = 20)
1.2下载数据的四种方法
①传统下载方式(≈官方下载方式)
直接运行代码,就不用在GEO官网点来点去了,但代码的本质还是从官网上下载的;所以运行过程会有点慢,因为下载文件可能会比较慢
library(GEOquery)
eSet = getGEO("GSE18670", destdir = '.', getGPL = F)
有时网速实在太慢,甚至下不下来,怎么办?
②手动下载
手动从网页上下载 or 发链接给网速快的小伙伴帮忙下载,再放在工作目录里。详见
GEO数据库实操、三大芯片
一文
所谓的链接,即如图2中红框部分,注意链接中的GSE号不要弄错