专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
中国基金报  ·  突发!“对无人机车间,发起集群攻击” ·  昨天  
德州晚报  ·  明天,德州有招聘会! ·  2 天前  
中国基金报  ·  突然,又爆了!鲍威尔,最新发声! ·  2 天前  
银行螺丝钉  ·  年终奖投资指南(精品课程) ·  2 天前  
51好读  ›  专栏  ›  生信技能树

质量不够就靠数量来凑的顶刊单细胞文章

生信技能树  · 公众号  ·  · 2024-05-12 09:10

正文

看到了交流群有人分享了这个发表于2024的3月份在Nature Medicine 杂志的文章,标题是:《Single-cell transcriptomic analyses reveal distinct immune cell contributions to epithelial barrier dysfunction in checkpoint inhibitor colitis》,内容简介如下所示:

内容简介

交流群的小伙伴表示它这个文章的数据集里面的样品数量和细胞数量的关系很奇怪,数据集是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE206301 ,可以看到样品数量还是很夸张的,而且这个文章是发表在2021的预印本的研究,也就是说早在2020左右就已经完成了152个样品的单细胞转录组,那个时候起码还得三四万一个样品,这就是500万人民币的经费在燃烧了。

样品数量还是很夸张的

但是,如果我们下载它提供的每个样品的表达量矩阵文件和cellranger报表,就会发现每个样品质量都惨不忍睹!

样品质量都惨不忍睹

我汇总了这个文章里面的单细胞核转录组的34个10x技术单细胞转录组的报表,如下所示:

10,000 13,902 28 139,020,938
10,000 14,920 30 149,202,916
10,000 14,648 154 146,486,229
10,000 15,325 19 153,253,107
10,000 10,418 20 104,185,854
10,000 11,201 10 112,013,839
10,000 12,212 62 122,125,808
10,000 14,790 87 147,908,590
10,000 16,043 409 160,439,328
10,000 12,464 32 124,640,796
10,000 13,753 52 137,532,673
10,000 10,160 38 101,604,274
10,000 14,190 32 141,907,328
10,000 25,716 50 257,167,328
10,000 9,181 28 91,813,272
10,000 8,759 59 87,594,642
10,000 6,941 24 69,417,191
10,000 8,725 38 87,250,215
10,000 15,606 117 156,060,575
10,000 13,403 346 134,037,076
10,000 15,876 143 158,764,477
10,000 14,423 133 144,234,478
10,000 14,683 26 146,838,589
10,000 14,239 75 142,393,186
10,000 15,101 186 151,010,490
10,000 17,111 198 171,115,614
10,000 12,556 13 125,561,916
10,000 14,662 65 146,626,833
10,000 15,314 385 153,148,910
10,000 18,057 572 180,578,674
10,000 9,380 23 93,805,038
10,000 13,772 51 137,729,978
10,000 15,156 181 151,562,594
10,000 15,732 558 157,322,231

可以看到,基本上大量的样品的细胞的平均检测到的基因数量都少得可怜,可以说是质量非常差了。这就是为什么可以看到文章里面的降维聚类分群结果就很奇怪:

分群结果就很奇怪

其实研究者并没有在这个单细胞核转录组项目里面进行细胞筛选,所以其实如果你读取它们给出来的表达量矩阵文件后进行降维聚类分群,是可以看到各种不同的免疫细胞的, 如下所示:

有各种不同的免疫细胞的

我本来呢因为是这些样品质量不好说因为研究者们没有hold住这个单细胞核转录组,但是我下载另外的两个普通单细胞转录组,发现质量也是惨不忍睹, 都需要进行严格的过滤啦。基本上跟前面分享的: 好狠的心啊,直接就删除8成的单细胞! 有异曲同工之妙。

主要的问题就是检测到的基因数量不太够

原则上现在大家做10x技术流的单细胞转录组的时候,平均基因检出应该是可以到1000到2000,它这个项目还不到十分之一,所以删除了80%的细胞也不足为奇。而且, 如果进行了严格的质量控制后的降维聚类分群,居然效果还不错。起码分群是合理的,不过平均基因检出这么少,其实影响后面的差异分析富集分析等等。

往期回顾

同时表达巨噬细胞和b细胞标记基因的亚群是全新亚群吗

复旦肿瘤连发两个单细胞泛癌数据分析CNS正刊研究文章

单细胞+空间揭示胰腺导管腺癌的组织结构

根据线粒体基因进行过滤

人类健康呼吸道的单细胞图谱






如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程








请到「今天看啥」查看全文