数据集:
GEO NCBI ID Age Genotype/Strain Number of Used Samples Initial Number of Cells GSE100910 3–9 months WT; prkdc 6 11,327 GSE112438 not available AB; CD41:GFP 37 13,824 GSE130487 4–12 months WT 1 20,000 GSE150373 8 months WT; runx1 8 39,424 GSE151231 4 months WT; gata2b 9 14,463 GSE166646 adult WT 1 6422 GSE176036 8 months runx1 8 35,178 GSE179401 2 months WT; rag; rag il2rga 9 47,832 GSE190794 4 months GESTALT 10 51,540 GSE191029 adult WT; prkcda; cxcl8 8 20,695 GSE242133 1-1.5 months AB 3 36,600 GSE246039 3 months WT; cebpb 10 105,194 GSE252788 6 months cebpb 2 28,534
这篇文章可以很好地作为多数据集整合的学习样板,作者在正文中提供了详细的参数~
当然,遗憾之处在于这篇文章并未提供code。
幸运的是,在邮件request code以后作者非常及时地给了回复【代码长达7677行!而且因为数据集较多,谨慎在本地运行哦】,并建议和讲人类肾脏的【Meta-analysis of single-cell and single-nucleus transcriptomics reveals kidney cell type consensus signatures】互参~
此外,另一篇【斑马鱼心脏的单细胞集合:Transcriptomic data meta‑analysis reveals common and injury model specific gene expression changes in the regenerating zebrafish heart】是有代码的,也可以作为参考~
https://github.com/MercaderLabAnatomy/PUB_Botos_et_al_2022
由于这篇文献后续的分析主要是围绕中性粒细胞和巨噬细胞开展的,我们先把他们的marker找出来。
中性粒细胞和巨噬细胞、B细胞还有造血干细胞的marker基于:
Single-cell RNA sequencing unveils the hidden powers of zebrafish kidney for generating both hematopoiesis and adaptive antiviral immunity
Cell Marker neutrophils lyz, mpx, cpa5, cd11b, adgrg3, nccrp1 macrophages grna, mpeg1.1, clss2.2, mpeg1.2, grna1 B cells cd37, cd79a, cd79b, ighm hematopoietic stem cells dut, npm1a, mki67, snu13b, cnbpa
作者在整合多个数据集以后,针对免疫细胞进行了深入分析——
条件如下:
FindMarkers 函数:only.pos = TRUE(上调),min.pct = 0.02(至少在免疫群体中 2% 的细胞中表达),logfc.threshold = 0.5(在免疫群体中 log2FC ≥ 0.5 时上调) 计算免疫相关标记基因 。
排除非免疫细胞。
使用子集功能,筛选出数量较多(每个细胞 3000-30 000 个)、表达 1000-4000 个非零水平基因的免疫细胞,从而去除覆盖率低的免疫细胞 。
重复harmony。
PrepSCTFindMarkers 和 FindAllMarkers 计算单个簇的标记基因:only.pos = TRUE(上调),min.pct = 0.25(至少在目标簇 25% 的细胞中表达),logfc.threshold = 0.5(与所有其他簇相比,目标簇中上调 log2FC ≥ 0.5)。
总的来说,这篇文章数据集丰富、配色简洁优雅,思路并不复杂,值得借鉴,不知道是否适用于同一类组织感兴趣细胞的数据挖掘,开开脑洞试试看吧~