专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物学霸  ·  Science 等了 57 ... ·  3 天前  
BioArt  ·  Nat Mach Intell | ... ·  4 天前  
生物学霸  ·  中标的奥秘 — 本子、底子、圈子 ·  4 天前  
BioArt  ·  Sci Adv | ... ·  1 周前  
51好读  ›  专栏  ›  生信菜鸟团

使用R语言获取特定关键词的通路 (msigdb数据库)

生信菜鸟团  · 公众号  · 生物  · 2024-10-26 10:00

正文

  1. Msigdb如何查找特定基因集合

  2. 使用代码获取Msigdb数据库的所有通路信息

  3. R包安装失败怎么办?(一)msigdbr


进入官网查看

https://www.gsea-msigdb.org/gsea/msigdb

不管小鼠还是人,大的分类,category都是按照H C1 C2 C3......


方法一  :假设我们对小鼠数据集感兴趣

点击小鼠的M2

这里面有subcategory的详细分类,比如 

 CGP     CP:BIOCARTA         CP:KEGG     CP:REACTOME    CP:WIKIPATHWAYS

  

查看,对凋亡通路感兴趣的话,control+F网页搜索

# get all human gene sets
msigdbr(species = "Homo sapiens")# get mouse C2 (curated) CGP (chemical and genetic perturbations) gene sets
msigdbr(species = "Mus musculus", category = "C2", subcategory = "CGP")


方法二:下面这样查看,更有层次感

https://www.gsea-msigdb.org/gsea/msigdb/mouse/genesets.jsp?collection=CP



方法三:使用代码获取想要的基因集合

.libPaths(c("/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2",            "/home/data/t040413/R/yll/usr/local/lib/R/site-library",            "/refdir/Rlib/",   "/usr/local/lib/R/library"))


#request 2.libPaths(c( "/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2", "/home/data/t040413/R/yll/usr/local/lib/R/site-library", "/refdir/Rlib/", "/usr/local/lib/R/library"))
library(GO.db)library(Seurat)library(dplyr)library(tibble)library(readr)
getOption("repos");help("repositories", package = "BiocManager")
#BiocManager::install('msigdb',site_repository = 'https://cran.rstudio.com/' )library(msigdb)

如果直接使用category = "C2",subcategory = "CP"提前相应的数据集里面的基因集容易忽略一些数据,所以建议只使用category参数,不使用subcategory

#如果直接使用category = "C2",subcategory = "CP"提前相应的数据集里面的基因集容易忽略一些数据,所以建议只使用category参数,不使用subcategory
#6提取并制备人的hallmarks列表---------msigdbr::msigdbr_collections()all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus",category = "C2",subcategory = "CP") #Mus musculus Homo sapiens#saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_hs_msigdb.rds")all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus",category = "C2") #Mus musculus Homo sapiens
all_gene_sets_hs table(all_gene_sets_hs$gs_subcat)



方法四:代码查找想要的通路

假设我们这里想要寻找的是APOPTOSIS相关通路

#假设我们这里想要寻找的是APOPTOSIS相关通路
#pattern参数内输入想要寻找的关键词,这里用的是"APOPTOSIS"
h2
length(unique(h2$gs_name))#查看唯一通路
length(unique(h2$human_gene_symbol))#查看所有通路中的唯一基因length(unique(h2$gene_symbol))#查看所有通路中的唯一基因table(h2$gs_subcat)table(h2$gs_name)
write.csv(h2,"allPathway_apoptosis.csv")#保存结果 h2h2_list=split(x = h2$gene_symbol,f=h2$gs_name )h2_list



如果有些基因集实在找不到(不同版本之间的名字可能不一样),可以直接检索(需要邮箱登录)

https://www.gsea-msigdb.org/gsea/msigdb/human/search.jsp

  1. Msigdb如何查找特定基因集合

  2. 使用代码获取Msigdb数据库的所有通路信息

  3. R包安装失败怎么办?(一)msigdbr