百万级别数量的单细胞数据在r里面如何更快处理呢

生信技能树 · 公众号 · · 2024-08-07 18:30

主要观点总结

文章介绍了张泽民老师的最新单细胞研究文章，数据集GSE236581涉及结肠癌患者对免疫治疗的不同反应。文章关键信息包括数据集的内容、文件结构、读取方法和单细胞亚群注释信息。

关键观点总结

关键观点1: 数据集GSE236581介绍

数据集包括来自22名结肠癌患者的新辅助治疗数据，涉及原发性肿瘤组织、邻近正常组织和外周血，共包含169个单细胞样本。

关键观点2: 文件结构和下载内容

数据集包含多个文件，包括元数据、条形码、特征和计数矩阵等。下载后，简单的修改名字和文件夹结构即可使用。

关键观点3: 数据读取和细胞数量

数据读取过程相对简单但需要较长时间，取决于计算机资源。该数据集接近包含100万个细胞。

关键观点4: 单细胞亚群注释信息

研究者提供了较好的单细胞亚群注释信息，因此重新分析时无需再次进行完整的降维聚类分群。但仍然有时需要自己处理数据，特别是当作者提供的注释不完善或不令人信服时。

关键观点5: 计算和生物信息学基础要求

进行单细胞转录组数据分析需要良好的计算机资源以及生物信息学基础。文章提到了一些学习资源，如生物信息学马拉松授课和单细胞数据挖掘线下培训等。

正文

前些天在朋友圈看到了小伙伴分享了张泽民老师的一个最新单细胞文章：《Spatiotemporal single-cell analysis decodes cellular dynamics underlying different responses to immunotherapy in colorectal cancer》，数据集是GSE236581，是 primary tumor tissues, adjacent normal tissues, and peripheral blood of 22 CRC patients underwent neoadjuvant anti-PD-1 treatment. 总计 169 single-cell samples ，数据量确实是非常可观。

小伙伴表示如果是在r编程语言里面处理它，仅仅是读取就耗费25分钟啦。我们可以在其GEO界面（https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE236581）看到研究者们公开的，如下所示的文件：

GSE236581_CRC-ICB_metadata.txt.gz 12.7 Mb 
GSE236581_VDJ_merge.txt.gz 43.0 Mb 
GSE236581_barcodes.tsv.gz 4.5 Mb  
GSE236581_counts.mtx.gz 3.9 Gb  
GSE236581_features.tsv.gz 243.5 Kb

下载这些文件后简单的修改名字和文件夹结构，如下所示：

tree -h inputs/
[ 160]  inputs/
├── [4.5M]  barcodes.tsv.gz
├── [244K]  features.tsv.gz
└── [3.9G]  matrix.mtx.gz

读取本身是很简单的事情（就是好费时间，而且取决于计算机资源）：

ct=Read10X('inputs/',gene.column = 1)
dim(ct)
#[1]  36027 975275

可以看到是接近100万个细胞啦，而且研究者们给出来了比较好的单细胞亚群注释信息：

phe=data.table::fread('GSE236581_CRC-ICB_metadata.txt.gz',data.table = F) 
head(phe)
rownames(phe)=phe[,1]
phe=phe[,-1]
table(phe$Ident)
gplots::balloonplot(
  table(phe$MajorCellType,phe$Tissue)
)

如下所示：

单细胞亚群注释

也就是说，大家在重新分析这个数据集的时候，其实已经是不需要重新对这么大一个数据集进行降维聚类分群啦。起码第一层次降维聚类分群和第二层次作者都给出来了，而且很清晰：

不需要重新对这么大一个数据集进行降维聚类分群

也就是说， 对GSE236581这个数据集来说，读取它全部的接近100万个细胞后走单细胞转录组流程其实是伪命题啦 ，不过， 也确实是很多公共数据集并不会给作者注释好的信息，或者说有时候作者自己的注释也并不完善或者让大家信服，就需要自己从零开始处理啦。