专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
河南新闻广播  ·  河南一夜“速冻”!0℃以下的寒从早冷到晚 ·  昨天  
河南发布  ·  河南一夜“速冻”,注意防寒保暖 ·  昨天  
河南新闻广播  ·  破100亿! ·  3 天前  
51好读  ›  专栏  ›  生信技能树

获取msigdbr数据库中的基因集失败是什么原因?

生信技能树  · 公众号  ·  · 2025-02-05 17:40

正文

我们每月一期的生信马拉松授课群里有个学员在 做GSEA分析的时候报错,下载其中的基因集失败 ,报错如下:

来看看是怎么回事!

要使用这个包,肯定还是需要对这个 msigdb 数据库有一定的背景知识了解,我们去官网看看现在都更新了哪些基因集合。

1、了解 msigdb 官网

官网地址:https://www.gsea-msigdb.org/gsea/msigdb/index.jsp

我们可以看到 2024 年这个数据库进行了一次大更新 ,将基因集合分成了人与小鼠两个物种,以前官网只有人类这个物种的基因集。并且 小鼠基因集在 2023 年发表在了 Nature Methods 上面 。从下面这个图,我们还可以看出上面图片中报错的 m8 类基因集是存在的。


点击 m8,我们可以看到这里包括了 233 个基因集合:

下载 Gene Symbols 的 gmt 格式下来并读入R中:

library(clusterProfiler)
library(org.Hs.eg.db)
library(GSEABase)

## === HALLMARK通路富集
geneset "data/m8.all.v2024.1.Mm.symbols.gmt")
length(unique(geneset$term))
head(as.data.frame(table(geneset$term)))

2、看看 R 包版本

# 加载包
library(msigdbr)
library(tidyverse)

# 可以看到,这个包涵盖了20个物种
msigdbr_species()

# 包含的类别,并没有M8类别
as.data.frame(msigdbr_collections())


## C5 (ontology gene sets, 15703 gene sets)
genesets "Mus musculus", category = "C8", subcategory = NULL)
genesets[1:5,1:5]
length(unique(genesets$gs_name))


# 查看目录,与MSigDB一样,包含9个数据集
table(genesets$gs_cat)
table(genesets$gs_subcat)
head(as.data.frame(table(genesets$gs_name)))

# 提取小鼠物种的所有基因集
all_gene_sets "Mus musculus")
head(all_gene_sets)
table(all_gene_sets$gs_cat)

并没有M8类别,只有C8:

且与人这个物种基因集名一样:

3、我们看看这个R包是怎么得到小鼠物种的基因集吧:

两个官网:

  • https://igordot.github.io/msigdbr/articles/msigdbr-intro.html#helper-functions







请到「今天看啥」查看全文