专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Nature | ... ·  11 小时前  
生物学霸  ·  Cell Res ... ·  昨天  
BioArt  ·  Science | ... ·  昨天  
生物学霸  ·  中国科学院:做好 2025 年院士增选工作 ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

使用R语言获取特定关键词的通路 (msigdb数据库)

生信菜鸟团  · 公众号  · 生物  · 2024-10-26 10:00

主要观点总结

本文介绍了如何使用Msigdb数据库查找特定基因集合,包括使用代码获取所有通路信息的方法,以及解决R包安装失败的方法。

关键观点总结

关键观点1: 如何查找特定基因集合

可以通过访问Msigdb官网,选择物种、分类和子分类来查找特定的基因集合。此外,也可以使用代码通过msigdbr包来获取所需的基因集合。

关键观点2: 使用代码获取Msigdb数据库的所有通路信息

通过msigdbr包,可以方便地获取Msigdb数据库中的基因集合信息。例如,通过设置物种、分类和子分类等参数,可以获取特定条件下的基因集合。

关键观点3: R包安装失败怎么办

如果R包安装失败,可以尝试更换下载源、使用BiocManager包管理器安装、检查R版本兼容性等方法来解决问题。

关键观点4: msigdbr包的使用注意事项

在使用msigdbr包获取基因集合时,建议只使用category参数,不使用subcategory参数,以避免忽略一些数据。


正文

  1. Msigdb如何查找特定基因集合

  2. 使用代码获取Msigdb数据库的所有通路信息

  3. R包安装失败怎么办?(一)msigdbr


进入官网查看

https://www.gsea-msigdb.org/gsea/msigdb

不管小鼠还是人,大的分类,category都是按照H C1 C2 C3......


方法一  : 假设我们对小鼠数据集感兴趣

点击小鼠的M2

这里面有subcategory的详细分类,比如

 CGP     CP:BIOCARTA         CP:KEGG     CP:REACTOME    CP:WIKIPATHWAYS

查看,对凋亡通路感兴趣的话,control+F网页搜索

# get all human gene sets
msigdbr(species = "Homo sapiens")# get mouse C2 (curated) CGP (chemical and genetic perturbations) gene sets
msigdbr(species = "Mus musculus", category = "C2", subcategory = "CGP")


方法二: 下面这样查看,更有层次感

https://www.gsea-msigdb.org/gsea/msigdb/mouse/genesets.jsp?collection=CP



方法三: 使用代码获取想要的基因集合

.libPaths(c("/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2",            "/home/data/t040413/R/yll/usr/local/lib/R/site-library",            "/refdir/Rlib/",   "/usr/local/lib/R/library"))


#request 2.libPaths(c( "/home/data/t040413/R/x86_64-pc-linux-gnu-library/4.2", "/home/data/t040413/R/yll/usr/local/lib/R/site-library", "/refdir/Rlib/", "/usr/local/lib/R/library"))
library(GO.db)library(Seurat)library(dplyr)library(tibble)library(readr)
getOption("repos");help("repositories", package = "BiocManager")
#BiocManager::install('msigdb',site_repository = 'https://cran.rstudio.com/' )library(msigdb)

如果直接使用category = "C2",subcategory = "CP"提前相应的数据集里面的基因集容易忽略一些数据,所以建议只使用category参数,不使用subcategory

#如果直接使用category = "C2",subcategory = "CP"提前相应的数据集里面的基因集容易忽略一些数据,所以建议只使用category参数,不使用subcategory
#6提取并制备人的hallmarks列表---------msigdbr::msigdbr_collections()all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus",category = "C2",subcategory = "CP") #Mus musculus Homo sapiens#saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_hs_msigdb.rds")all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus",category = "C2") #Mus musculus Homo sapiens
all_gene_sets_hs table(all_gene_sets_hs$gs_subcat)



方法四:代码查找想要的通路

假设我们这里想要寻找的是 APOPTOSIS相关通路

#假设我们这里想要寻找的是APOPTOSIS相关通路
#pattern参数内输入想要寻找的关键词,这里用的是"APOPTOSIS"
h2
length(unique(h2$gs_name))#查看唯一通路
length(unique(h2$human_gene_symbol))#查看所有通路中的唯一基因length(unique(h2$gene_symbol))#查看所有通路中的唯一基因table(h2$gs_subcat)






请到「今天看啥」查看全文