专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
中国政府网  ·  习近平会见泰国总理佩通坦 ·  2 天前  
瞭望智库  ·  谁接下了春节旅游的“泼天富贵”? ·  2 天前  
51好读  ›  专栏  ›  生信技能树

如何下载MSigDB数据库糖代谢相关基因

生信技能树  · 公众号  ·  · 2025-02-06 16:53

正文

我们接到一个生信入门马拉松授课学员的提问,怎么办!!!当然是宠她啊! 提问如下:

首先,我检索了一下相关资料

使用关键词在微信搜索中查找: MSigDB数据库糖代谢相关基因 。搜到一篇 2022 年 10 月发表在 Frontiers in Endocrinology 杂志上的文章: Identification of risk model based on glycolysis-related genes in the metastasis of osteosarcoma 。这个文章中用的是糖酵解相关基因集:

We obtained 5 glycolysis-related pathway gene sets from MSigDB, namely:

  • BIOCARTA GLYCOLYSIS PATHWAY
  • GO GLYCOLYTIC PROCES,
  • HALLMARK GLYCOLYSIS,
  • KEGG GLYCOLYSIS GLUCONEOGENESIS,
  • REACTOME GLYCOLYSIS.

我感觉应该不止5个基因集!

又看到了另一篇 2023 年 8 月发表在杂志 Cancer Cell Int 的文献《 Glycolysis-related biomarker TCIRG1 participates in regulation of renal cell carcinoma progression and tumor immune microenvironment by affecting aerobic glycolysis and AKT/mTOR signaling pathway 》, 还给出了具体的如何从 MSigDB 数据库中查找糖代谢相关的基因:

我们当然可以直接下载这个文章的附表 table2,但是 MSigDB 数据库在 2024 年进行了一次大更新,见文章: 获取msigdbr数据库中的基因集失败是什么原因? ,我们还是 推荐用最新的数据看看

文章找到的21个通路:

BIOCARTA_ETC_PATHWAY
BIOCARTA_FEEDER_PATHWAY
BIOCARTA_GLYCOLYSIS_PATHWAY
BIOCARTA_KREB_PATHWAY
CHEN_LUNG_CANCER_SURVIVAL
DCA_UP.V1_DN
DCA_UP.V1_UP
GOBP_FRUCTOSE_1_6_BISPHOSPHATE_METABOLIC_PROCESS
GOBP_LACTATE_TRANSMEMBRANE_TRANSPORT
GOMF_LACTATE_TRANSMEMBRANE_TRANSPORTER_ACTIVITY
HALLMARK_GLYCOLYSIS
KEGG_CITRATE_CYCLE_TCA_CYCLE
KEGG_GLYCINE_SERINE_AND_THREONINE_METABOLISM
KEGG_GLYCOLYSIS_GLUCONEOGENESIS
MODULE_306
REACTOME_GLYCOLYSIS
REACTOME_REGULATION_OF_GLYCOLYSIS_BY_FRUCTOSE_2_6_BISPHOSPHATE_METABOLISM
WP_AEROBIC_GLYCOLYSIS
WP_GLYCOLYSIS_AND_GLUCONEOGENESIS
WP_GLYCOLYSIS_IN_SENESCENCE
WP_HIF1A_AND_PPARG_REGULATION_OF_GLYCOLYSIS

看看如何用代码实现

我们要用关键词 glycolysis 查找 MSigDB 数据库 : https://www.gsea-msigdb.org/gsea/msigdb/index.jsp

先将整个库下载下来,文件不大不到30M:

library(clusterProfiler)
library(org.Hs.eg.db)
library(GSEABase)

## === 所有通路
geneset "msigdb.v2024.1.Hs.symbols.gmt")
length(unique(geneset$term))
head(as.data.frame(table(geneset$term)))

总共有 个 34837 基因集:

只查找到13个通路,比上面的文章少,看了一下上面的通路,里面有一些基因集的名字中没有 glycolysis 关键词:

# 查找糖代谢相关的基因集:glycolysis
geneset_select "glycolysis", geneset$term,ignore.case = T),]
str(geneset_select)
as.data.frame(table(as.character(geneset_select$term






请到「今天看啥」查看全文