专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
深圳应急管理  ·  一女子徒步登山不慎坠崖身亡! ·  5 小时前  
CEO品牌观察  ·  深耕户外领域逾20年,牧高笛MOBI ... ·  3 天前  
51好读  ›  专栏  ›  生信技能树

高中生都能做的单细胞数据挖掘

生信技能树  · 公众号  ·  · 2024-04-30 23:20

正文

最近刷到了一个乳腺癌的单细胞数据挖掘文章:《 Heterogeneity of vascular cells in different breast cancer subtypes revealed by single-cell RNA-seq analysis 》,挖掘了GEO数据库的单细胞公开数据集GSE161529,起初我看作者名字就一个,没觉得有什么,毕竟数据挖掘嘛,本来就不需要太多外部条件,一个人就足矣。然后查了一下这个期刊杂志,不是很懂它《Highlights in Science, Engineering and Technology》

不过,让我意外的是作者的单位是:Shenzhen college of international school, Shenzhen, China ,看起来是一个国际高中,简单查了一下,类似的国际高中蛮多的:

深圳国际交流学院 Shenzhen College of International Education (SCIE)
万科梅沙书院 Vanke Meisha Academy(VMA)
深圳荟同学校 Whittle School & Studios Shenzhen Campus
爱文世界学校深圳校区 Shenzhen Campus of Avenues: The World School
深圳贝赛思双语学校 BASIS Bilingual School Shenzhen(BBSZ)
太子湾实验部 The Bay Academy
深圳市福田区城市绿洲学校Green Oasis School
深圳前海哈罗礼德学校 Harrow Innovation Leadership Academy – Shenzhen Qianhai(HILA)
深圳查特豪斯书院 Charterhouse College Shenzhen
深圳国际预科学院 Shenzhen International Foundation College(SIFC)
曦城协同学校 Buena Vista Concordia International School(BCIS)
深圳梅沙双语学校 Shenzhen Meisha Bilingual School
深圳新哲书院 Sendelta International Academy Shenzhen(SIA)
柏朗思观澜湖学校 Bromsgrove School Mission Hills (BMH)
深圳市罗湖区华美外国语学校 HUAMEI FOREIGN LANGUAGE SCHOOL

言归正传啦,让我们看看这个单细胞数据挖掘做了什么,里面提到的这个GEO数据库的单细胞公开数据集GSE161529, 描述说里面是13 normal individuals and 45 patients with various types of breast cancer. 4 with luminal B type, 8 with triple negative type, 6 with Her2 type, 3 with mER type and 24 with ER type.

其实认真看看这个GEO数据库的单细胞公开数据集GSE161529配套文章:《A single-cell RNA expression atlas of normal, preneoplastic and tumorigenic states in the human breast》,就会发现这个归纳总结其实是不对的。

然后是单细胞转录组常规的质量控制和第一层次降维聚类分群以及生物学命名:

这个绝大部分的肿瘤领域的单细胞转录组的第一层次降维聚类分群以及生物学命名,我几年前介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则 ,这个第一次分群规则是 :

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)

这一点,文章做的问题不大,也是类似的亚群:endothelial cells (PECAM1), smooth muscle cells (ACTA2), fibroblast (DCN), T cells (CD8A), B cells (CD79A), epithelial cells (EPCAM).

作者的写作点主要是:vascular cells were extracted including endothelial cells, smooth muscle cells, and pericytes (sometimes grouped as mural cells).

这几个亚群对应的基因主要是:

  • PECAM1 for endothelial cells
  • ACKR1 for venous endothelial cells
  • RGCC for capillary endothelial cells
  • MYH11 for smooth muscle cells
  • RGS5 for pericytes
  • LYVE1 for lymphatic endothelial cells

挺好的,这一点认知比绝大部分硕博士还要强了哦。而且我看了看文章也列出来了更多的单细胞亚群的特异性基因:

我们其实也多次分享过:

# T Cells (CD3D, CD3E, CD8A), 
# B cells (CD19, CD79A, MS4A1 [CD20]), 
# Plasma cells (IGHG1, MZB1, SDC1, CD79A), 
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),  
# Photoreceptor cells (RCVRN), 
# Fibroblasts (FGF7, MME),   'DCN', 'LUM',  'GSN' 
# Endothelial cells (PECAM1, VWF). 
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
#   immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), 
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo) 

文章仅仅是到单细胞细分亚群,以及看比例变化,没有常见的单细胞高级分析,包括但不限于:

仅仅是看细胞比例,最后的图也很奇怪:

不过呢,也不能苛责太多, 一个高中生能做到这一点很棒了,毕竟首先得有服务器级别的计算机资源,这个GEO数据库的单细胞公开数据集GSE161529足足有接近30万个单细胞啊,其次得学会r语言,就远超同龄人,然后掌握单细胞流程,而且需要大量阅读相关单细胞数据分析流程综述 ,比如


                     分割线







请到「今天看啥」查看全文


推荐文章
深圳应急管理  ·  一女子徒步登山不慎坠崖身亡!
5 小时前
读书小分队  ·  集齐了五福,然后。。。
8 年前
数据中心运维管理  ·  “等我干IT发财了,就和你离婚”
7 年前
界面新闻  ·  买手店江湖
7 年前