MSigDB数据集分为C1-C10共10个主要类别,每个类别包含不同类型的基因集,这些基因集可用于探索疾病机制、寻找潜在治疗靶点、研究基因调控网络等。
分类理由基于基因的物理位置、化学或基因干扰后的表达变化、序列特征、预定义的生物学通路、GO注释、人类疾病表型等因素。这些基因集可用于不同的生物学研究,如研究特定染色体区域的基因表达模式、探索化学物质或基因干扰对基因表达的影响、研究转录因子和其他调控蛋白如何影响基因表达等。
MSigDB (Molecular Signatures Database) 是一个广泛使用的数据库,包含了各种生物学通路和基因集,用于基因表达数据的功能注释和解释。MSigDB的数据集分为多个类别,每个类别包含不同类型的基因集,这些基因集可以用来进行各种生物学和医学研究。
1.获取msigdb所有通路或者特定通路、基因代码
#2提取并制备人的human|mouse列表---------
if(T){
msigdbr::msigdbr_collections()
all_gene_sets_hs = msigdbr::msigdbr(species = "Homo sapiens") #Mus musculus Homo sapiens ,category = "C2",subcategory = "CP"
dim(all_gene_sets_hs)
#saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_hs_msigdb.rds")
all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus" ) #Mus musculus Homo sapiens
dim(all_gene_sets_hs)
#saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_mm_msigdb.rds")
all_gene_sets_hs
table(all_gene_sets_hs$gs_subcat)
table(all_gene_sets_hs$gs_cat)
#假设我们这里想要寻找的是APOPTOSIS相关通路
#pattern参数内输入想要寻找的关键词,这里用的是"APOPTOSIS"
h2
length(unique(h2$gs_name))#查看唯一通路
length(unique(h2$human_gene_symbol))#查看所有通路中的唯一基因
length(unique(h2$gene_symbol))#查看所有通路中的唯一基因
table(h2$gs_subcat)
#table(h2$gs_name)
library(dplyr)
h2[h2$gs_cat=='C3' ,] %>% .$gs_subcat %>% table()
h2[h2$gs_cat=='C3' &
h2$gs_subcat=='TFT:GTRD' | h2$gs_subcat=='TFT:TFT_Legacy'
,] %>% .$gs_subcat %>% table()
table(h2$gs_subcat)
getwd()
#openxlsx::write.xlsx(h2,"allPathway.xlsx")#保存结果
#save(h2,file = "allPathway.rds")
# 3将数据转换为嵌套列表------------
nested_list %
group_by(gs_cat, gs_name) %>%
summarise(gene_symbol = list(gene_symbol), .groups = 'drop') %>%
group_by(gs_cat) %>%
summarise(gs_name = list(set_names(gene_symbol, gs_name)), .groups = 'drop') %>%
deframe()
# 查看结果
# nested_list$C1[[1]]
# head(names(nested_list$C1))
#4 加载silicosis空转数据----
# h2_list=split(x = h2$gene_symbol,f=h2$gs_name )
# h2_list
load("~/silicosis_spatial/d.all.rds")
DefaultAssay(d.all)="SCT"
d.all=SCTransform(d.all,vars.to.regress = "stim",assay = "Spatial")
dim(d.all)
# SpatialFeaturePlot(d.all,features = 'Mmp12')
#
#head([email protected])
mygenes=nested_list
}
2 MSigDB数据集的主要分类及其含义、分类理由和用途:
1.
C1:
CGN (Chromosomal Location)
-
含义
:包含基因在染色体上的物理位置,通常根据染色体带区进行分类。
-
分类理由
:基于基因在染色体上的位置,方便研究染色体区域与特定疾病或表型的相关性。
-
用途
:用于研究特定染色体区域的基因表达模式,以及这些区域的基因在疾病中的作用。
2.
C2:
CGP (Chemical and Genetic Perturbations)
-
含义
:包含基因集,基于对细胞或有机体进行化学或基因干扰后的表达变化。
-
分类理由
:根据基因在化学处理(如药物)或基因操作(如基因敲除、过表达)后的反应进行分类。
-
用途
:用于研究化学物质或基因干扰对基因表达的影响,探索潜在的治疗靶点。
3.
C3: CM (Motif Gene Sets)
-
含义
:基于共表达基因的共有序列模式(如转录因子结合位点)。
-
分类理由
:根据基因的序列特征和转录调控元件进行分类。
-
用途
:研究转录因子和其他调控蛋白如何影响基因表达。
4.
C4: CP (Canonical Pathways)
5.
C5: GO (Gene Ontology)
-
含义
:基于基因本体论(GO)注释,包括生物过程(GO)、细胞组分(GO)和分子功能(GO)。
-
分类理由
:根据GO注释提供的基因功能分类系统进行分类。
-
用途
:研究基因在不同生物过程、细胞组分和分子功能中的作用。
6.
C6:
HPO (Human Phenotype Ontology)