专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生物探索  ·  Science | ... ·  11 小时前  
生信人  ·  抓紧上车,焦亡巨噬细胞 ·  昨天  
生物学霸  ·  杀疯了!DeepSeek ... ·  昨天  
BioArt  ·  Nat Microbiol | ... ·  2 天前  
51好读  ›  专栏  ›  生信菜鸟团

获取msigdb所有通路或者特定通路、基因代码

生信菜鸟团  · 公众号  · 生物  · 2024-10-26 10:00

主要观点总结

本文介绍了MSigDB数据库的内容及其使用方法,并列举了MSigDB数据集的主要分类及其含义、分类理由和用途。

关键观点总结

关键观点1: MSigDB数据库简介及功能

MSigDB是一个包含各种生物学通路和基因集的数据库,用于基因表达数据的功能注释和解释。

关键观点2: MSigDB数据集的主要分类及其含义

MSigDB数据集分为C1-C10共10个主要类别,每个类别包含不同类型的基因集,这些基因集可用于探索疾病机制、寻找潜在治疗靶点、研究基因调控网络等。

关键观点3: MSigDB数据集分类的理由和用途

分类理由基于基因的物理位置、化学或基因干扰后的表达变化、序列特征、预定义的生物学通路、GO注释、人类疾病表型等因素。这些基因集可用于不同的生物学研究,如研究特定染色体区域的基因表达模式、探索化学物质或基因干扰对基因表达的影响、研究转录因子和其他调控蛋白如何影响基因表达等。


正文

MSigDB (Molecular Signatures Database) 是一个广泛使用的数据库,包含了各种生物学通路和基因集,用于基因表达数据的功能注释和解释。MSigDB的数据集分为多个类别,每个类别包含不同类型的基因集,这些基因集可以用来进行各种生物学和医学研究。

1.获取msigdb所有通路或者特定通路、基因代码

#2提取并制备人的human|mouse列表---------if(T){ msigdbr::msigdbr_collections() all_gene_sets_hs = msigdbr::msigdbr(species = "Homo sapiens") #Mus musculus Homo sapiens ,category = "C2",subcategory = "CP" dim(all_gene_sets_hs) #saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_hs_msigdb.rds")
all_gene_sets_hs = msigdbr::msigdbr(species = "Mus musculus" ) #Mus musculus Homo sapiens dim(all_gene_sets_hs) #saveRDS(all_gene_sets_hs,file="~/datasets/all_gene_sets_mm_msigdb.rds") all_gene_sets_hs table(all_gene_sets_hs$gs_subcat) table(all_gene_sets_hs$gs_cat)

#假设我们这里想要寻找的是APOPTOSIS相关通路
#pattern参数内输入想要寻找的关键词,这里用的是"APOPTOSIS"
h2
length(unique(h2$gs_name))#查看唯一通路
length(unique(h2$human_gene_symbol))#查看所有通路中的唯一基因 length(unique(h2$gene_symbol))#查看所有通路中的唯一基因 table(h2$gs_subcat) #table(h2$gs_name) library(dplyr) h2[h2$gs_cat=='C3' ,] %>% .$gs_subcat %>% table()

h2[h2$gs_cat=='C3' & h2$gs_subcat=='TFT:GTRD' | h2$gs_subcat=='TFT:TFT_Legacy' ,] %>% .$gs_subcat %>% table()
table(h2$gs_subcat)
getwd() #openxlsx::write.xlsx(h2,"allPathway.xlsx")#保存结果 #save(h2,file = "allPathway.rds")

# 3将数据转换为嵌套列表------------ nested_list % group_by(gs_cat, gs_name) %>% summarise(gene_symbol = list(gene_symbol), .groups = 'drop') %>% group_by(gs_cat) %>% summarise(gs_name = list(set_names(gene_symbol, gs_name)), .groups = 'drop') %>% deframe()
# 查看结果 # nested_list$C1[[1]] # head(names(nested_list$C1))


#4 加载silicosis空转数据---- # h2_list=split(x = h2$gene_symbol,f=h2$gs_name ) # h2_list load("~/silicosis_spatial/d.all.rds")
DefaultAssay(d.all)="SCT" d.all=SCTransform(d.all,vars.to.regress = "stim",assay = "Spatial") dim(d.all)
# SpatialFeaturePlot(d.all,features = 'Mmp12') #
#head([email protected])
mygenes=nested_list

}


2 MSigDB数据集的主要分类及其含义、分类理由和用途:

1. C1: CGN (Chromosomal Location)

  • 含义 :包含基因在染色体上的物理位置,通常根据染色体带区进行分类。

  • 分类理由 :基于基因在染色体上的位置,方便研究染色体区域与特定疾病或表型的相关性。

  • 用途 :用于研究特定染色体区域的基因表达模式,以及这些区域的基因在疾病中的作用。

2. C2: CGP (Chemical and Genetic Perturbations)

  • 含义 :包含基因集,基于对细胞或有机体进行化学或基因干扰后的表达变化。

  • 分类理由 :根据基因在化学处理(如药物)或基因操作(如基因敲除、过表达)后的反应进行分类。

  • 用途 :用于研究化学物质或基因干扰对基因表达的影响,探索潜在的治疗靶点。

3. C3: CM (Motif Gene Sets)

  • 含义 :基于共表达基因的共有序列模式(如转录因子结合位点)。

  • 分类理由 :根据基因的序列特征和转录调控元件进行分类。

  • 用途 :研究转录因子和其他调控蛋白如何影响基因表达。

4. C4: CP (Canonical Pathways)

  • 含义 :由公共数据库(如BIOCARTA、KEGG、PID、REACTOME、WIKIPATHWAYS)提供的标准生物学通路。

  • 分类理由 :根据预定义的生物学通路进行分类。

  • 用途 :研究细胞内信号传导、代谢路径和其他生物学过程。

5. C5: GO (Gene Ontology)

  • 含义 :基于基因本体论(GO)注释,包括生物过程(GO)、细胞组分(GO)和分子功能(GO)。

  • 分类理由 :根据GO注释提供的基因功能分类系统进行分类。

  • 用途 :研究基因在不同生物过程、细胞组分和分子功能中的作用。

6. C6: HPO (Human Phenotype Ontology)







请到「今天看啥」查看全文