我们每月一期的生信马拉松授课群里有个学员在
做GSEA分析的时候报错,下载其中的基因集失败
,报错如下:
来看看是怎么回事!
要使用这个包,肯定还是需要对这个 msigdb 数据库有一定的背景知识了解,我们去官网看看现在都更新了哪些基因集合。
1、了解 msigdb 官网
官网地址:https://www.gsea-msigdb.org/gsea/msigdb/index.jsp
我们可以看到
2024 年这个数据库进行了一次大更新
,将基因集合分成了人与小鼠两个物种,以前官网只有人类这个物种的基因集。并且
小鼠基因集在 2023 年发表在了 Nature Methods 上面
。从下面这个图,我们还可以看出上面图片中报错的 m8 类基因集是存在的。
点击 m8,我们可以看到这里包括了 233 个基因集合:
下载 Gene Symbols 的 gmt 格式下来并读入R中:
library(clusterProfiler)
library(org.Hs.eg.db)
library(GSEABase)
## === HALLMARK通路富集
geneset "data/m8.all.v2024.1.Mm.symbols.gmt")
length(unique(geneset$term))
head(as.data.frame(table(geneset$term)))
2、看看 R 包版本
# 加载包
library(msigdbr)
library(tidyverse)
# 可以看到,这个包涵盖了20个物种
msigdbr_species()
# 包含的类别,并没有M8类别
as.data.frame(msigdbr_collections())
## C5 (ontology gene sets, 15703 gene sets)
genesets "Mus musculus", category = "C8", subcategory = NULL)
genesets[1:5,1:5]
length(unique(genesets$gs_name))
# 查看目录,与MSigDB一样,包含9个数据集
table(genesets$gs_cat)
table(genesets$gs_subcat)
head(as.data.frame(table(genesets$gs_name)))
# 提取小鼠物种的所有基因集
all_gene_sets "Mus musculus")
head(all_gene_sets)
table(all_gene_sets$gs_cat)
并没有M8类别,只有C8:
且与人这个物种基因集名一样:
3、我们看看这个R包是怎么得到小鼠物种的基因集吧:
两个官网:
-
https://igordot.github.io/msigdbr/articles/msigdbr-intro.html#helper-functions