专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Cell Stem Cell | ... ·  17 小时前  
BioArt  ·  专家点评Nat Chem Biol | ... ·  2 天前  
生物探索  ·  Nature Biotechnology ... ·  3 天前  
生物学霸  ·  一个 80 后高校教师的苦闷 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

芯片代码实操(2)下载芯片表达数据

生信菜鸟团  · 公众号  · 生物  · 2024-09-12 18:10

正文

学习笔记总结于『生信技能树』马拉松课程

GEO数据挖掘系列,第9篇学习笔记:下载数据

为了无缝衔接第8篇学习笔记,该文中的序号将接着上一篇来标注

首先感谢曾老师对小宇学习生信的支持与鼓励!昨天我的学习笔记刚发布,曾老师就根据这篇笔记告诉了我额外的代码方法,于是在开启本篇之前,在此进行补充

0.5 补充

以下代码同样是R包的批量安装和加载,整体思路不变,有两处需要注意

#打包CRAN的R包并下载
cran.packages 'knitr', 'mixOmics''xtable''ggplot2''vegan''cluster',
                   'gridExtra''pheatmap''ruv''lmerTest''bapred')
install.packages(cran.packages)

#打包bioconductor的R包并下载
bioconductor.packages 'sva', 'limma''AgiMicroRna',
                           'variancePartition''pvca')

if (!requireNamespace('BiocManager', quietly = TRUE))
  install.packages('BiocManager')
BiocManager::install(bioconductor.packages, version = '3.18')


# install.packages('pacman')
library(pacman)
# p_load()会加载列表中的所有包
pacman::p_load(char = cran.packages)
pacman::p_load(char = bioconductor.packages)

Bioconductor 是3.18版本

如果是3.17及以下版本,可能会出现如图0蓝色框中的类似报错,而使用3.18版本能解决这个问题

图1

pacman

该R包是一个R包管理器,用于加载和安装其他包;该包含有安装、加载、更新、删除、搜索R包的函数;此处使用了 pacman 包的 p_load() 函数而不用循环,让代码更简洁

1.下载数据

1.1准备阶段

清空环境中的全部变量

rm(list = ls())

R语言的默认设置:若1分钟之内没下载好,就会暂停下载

打破下载时间的限制,改前60秒,改后10w秒(改成多少秒都行,最好将时间设置久点)

options(timeout = 100000)

不要以科学计数法表示,因为后续要检查数字的范围,用科学计数法更便于观察

options(scipen = 20)

1.2下载数据的四种方法

①传统下载方式(≈官方下载方式)

直接运行代码,就不用在GEO官网点来点去了,但代码的本质还是从官网上下载的;所以运行过程会有点慢,因为下载文件可能会比较慢

library(GEOquery)
eSet = getGEO("GSE18670", destdir = '.', getGPL = F)

有时网速实在太慢,甚至下不下来,怎么办?

②手动下载

手动从网页上下载 or 发链接给网速快的小伙伴帮忙下载,再放在工作目录里。详见 GEO数据库实操、三大芯片 一文

所谓的链接,即如图2中红框部分,注意链接中的GSE号不要弄错







请到「今天看啥」查看全文