专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信人  ·  五分一区JCR,中药生信玩出花 ·  昨天  
生物学霸  ·  孙欢课题组博士后招聘 ·  昨天  
生物制品圈  ·  肽类药物:现状、进展与未来展望 ·  3 天前  
生信人  ·  《Nature》中肠道菌群研究的正确打开方式 ·  3 天前  
BioArt  ·  Nature | GZMK通过激活补体系统加剧炎症 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

单细胞转录组实验设计如何定位到目标基因(两分组,仅4个单细胞样品)

生信菜鸟团  · 公众号  · 生物  · 2024-12-01 11:20

正文

单细胞转录组技术因其能够揭示细胞间的异质性而越来越受到研究者的青睐。然而,由于成本问题,许多实验室在设计实验时仍然倾向于采用类似于传统bulk转录组的简化设计,即只有两组,每组两三个样本。

这种设计可以在有限的资源下最大化地利用单细胞转录组技术的优势,同时保持实验的可行性和成本效益。随着技术的进步和成本的降低,未来可能会有更多的实验室采用更大规模的单细胞转录组实验设计。所以,如果是因为条件限制,导致大家拿到了这样的单细胞数据,你会有什么很好的办法让它一定成为一个文章吗?

这里我们分享一个两分组仅4个单细胞样品就定位到目标基因的实例 ,是最近刷到了一个2024的文章:《Single-cell landscape identified SERPINB9 as a key player contributing to stemness and metastasis in non-seminomas》,研究的疾病是胚胎性癌(Embryonal Carcinoma, EC)是一种恶性肿瘤。

关于胚胎性癌的疾病背景

胚胎性癌(Embryonal Carcinoma, EC)是一种恶性肿瘤,属于非精原性睾丸生殖细胞肿瘤(Non-Seminomatous Testicular Germ Cell Tumors, NSGCTs)中的一种亚型 :

  1. 组织学特征
  • 胚胎性癌的组织学特征与胚胎干细胞(Embryonic Stem Cells, ESCs)相似,表现出高度的干细胞特性,包括自我更新和多向分化潜能。
  • 临床表现
    • 患者通常表现为睾丸肿块、疼痛或不适,有时伴有体重减轻、发热或夜间盗汗等全身症状。

    单细胞转录组实验设计:

    可以看到,数据需要申请,在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005800

    HRI744207 P1 male HRS975948 sample-1 Non-seminoma
    HRI744208 P2 male HRS975949 sample-2 Non-seminoma
    HRI744209 P3 male HRS975950 sample-3 Non-seminoma
    HRI744210 P4 male HRS975951 sample-4 Non-seminoma

    这4个样品是有分组信息的:

    • These samples comprised one that had metastasized to retroperitoneal lymph nodes (P1)
    • three that displayed no metastatic behavior (P2-4)

    拿到了单细胞转录组表达量矩阵后,首先是可以降维聚类分群:

    降维聚类分群

    起初看上面的细胞亚群比例条形图还以为是6个单细胞转录组样品,后来发现其实P1这个个体就是LNM+这个组,另外的3个病人是LNM-组别。还是4个样品,2个分组。

    在上面的单细胞转录组分析中,通过降维聚类分群可以识别不同的生物学细胞亚群。文章里面的各种细胞亚群的标记基因和对应的细胞类型:

    1. 胚胎癌细胞 (EC cells)

    • 标记基因:POU5F1(OCT4)、SOX2、NANOG
    • 特点:这些细胞表现出类似于胚胎干细胞的高度“干性”,能够自我更新并具有多向分化潜能。
  • 畸胎瘤细胞 (Teratoma cells)

    • 标记基因:MGP(小鼠畸胎瘤相关蛋白)、NCAM1(神经细胞黏附分子1)、GPC3(糖蛋白3)
    • 特点:畸胎瘤细胞能够分化成三个胚层(内胚层、中胚层、外胚层)的各种细胞类型。
  • 髓系细胞 (Myeloid cells)

    • 标记基因:C1QB(补体C1q亚组分B)、LYZ(溶菌酶)、CD14
    • 特点:髓系细胞包括单核细胞、巨噬细胞、中性粒细胞等,参与先天免疫反应。
  • T/自然杀伤(NK)细胞 (T/NK cells)

    • 标记基因:CD3E(CD3ε链)、CD3G(CD3γ链)、CD3D(CD3δ链)
    • 特点:T细胞和NK细胞是适应性免疫系统的关键组成部分,参与细胞免疫反应。
  • B细胞/浆细胞 (B/Plasma cells)

    • 标记基因:CD79A(B细胞受体CD79α链)、IGHM(μ重链)、JCHAIN(连接链)
    • 特点:B细胞负责产生抗体,浆细胞是抗体分泌的终末分化细胞。
  • 肌成纤维细胞 (Myofibroblasts)

    • 标记基因:ACTA2(α-平滑肌肌动蛋白)、MYH9(非肌球蛋白重链9)、MYLK(肌球蛋白轻链激酶)
    • 特点:肌成纤维细胞在组织修复和纤维化过程中起重要作用,具有平滑肌细胞和成纤维细胞的特性。
  • 浆细胞样树突状细胞 (pDC)

    • 标记基因:IRF7(干扰素调节因子7)、IRF8(干扰素调节因子8)、TCF4(T细胞因子4)
    • 特点:pDC是树突状细胞的一种,主要参与抗病毒免疫反应和调节免疫耐受。
  • 内皮细胞 (Endothelial cells)

    • 标记基因:VWF(血管假血友病因子)、PECAM1(血小板内皮细胞黏附分子1)、CD34
    • 特点:内皮细胞构成血管的内皮层,参与血管生成和维持血管完整性。

    这些标记基因是识别和区分不同细胞亚群的关键,它们在单细胞转录组分析中用于聚类分析和细胞类型的鉴定。通过分析这些标记基因的表达模式,研究者可以深入了解样本中的细胞组成和功能状态。

    然后作者也做了很多细化的分析,针对上面的胚胎癌细胞 (EC cells)以及畸胎瘤细胞 (Teratoma cells)都取子集探索,有monocle2和monocle3的拟时序分析,转录因子分享。

    但是最终确定目标基因的环节,仅仅是一个差异分析。

    Volcano plot showing higher expression level of SERPINB9, SUSD2 and ARFX in EC cells of primary tumor from metastatic patient.

    上面的4个病人里面,其中(P2-4)是没有转移的分组,然后P1是有转移。所以在这两个分组做一个简单的差异分析即可,就定位到了SERPINB9这个目标基因 :

    SERPINB9这个目标基因

    敲减过表达目标基因

    有了目标基因,这个单细胞转录组课题就完成了一点半了,后面仍然是凑图凑实验数据环节!当然了,一个配套的转录组测序(RNA-Seq)必不可少,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。常见的转录组实验设计就是干扰一下目标基因,然后两分组每个组内3个样品,是因为早期转录组测序费用昂贵。如果是二十年前做一个转录组样品可能会过万的费用,十年前就千把块钱了,五年前就五六百块钱,现在就三百多块钱了。详见: 转录组价格腰斩哈!(优化升级后单个样本仅399元) 所以,建议大家敲减过表达前后转录组差异最好是都做一下,向CNS期刊看齐!比如2024的CELL文章:《A TCF4-dependent gene regulatory network confers resistance to immunotherapy in melanoma》

    不过今天介绍的文章很明显就只是做了敲减,没有过表达目标基因。可以看到样品如下所示:https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005581

    HRR1376616_f1.fastq.gz (3.35 GB) NCCIT-Ctrl-Rep1
    HRR1376616_r2.fastq.gz (3.69 GB) NCCIT-Ctrl-Rep1
    HRR1376617_f1.fastq.gz (2.96 GB) NCCIT-Ctrl-Rep2
    HRR1376617_r2.fastq.gz (3.23 GB) NCCIT-Ctrl-Rep2
    HRR1376618_f1.fastq.gz (1.95 GB) NCCIT-Ctrl-Rep3
    HRR1376618_r2.fastq.gz (2.13 GB) NCCIT-Ctrl-Rep3
    HRR1376619_f1.fastq.gz (2.74 GB) NCCIT-KD-Rep1
    HRR1376619_r2.fastq.gz (2.94 GB) NCCIT-KD-Rep1
    HRR1376620_f1.fastq.gz (2.65 GB) NCCIT-KD-Rep2
    HRR1376620_r2.fastq.gz (2.89 GB) NCCIT-KD-Rep2

    既然是简单的两分组,仍然是简单的差异分析和富集分析即可:

    简单的差异分析和富集分析

    如果该文章的两个数据都提供了表达量矩阵,我们就可以很容易验证文章的数据分析合理与否。但是文章仅仅是提供了fastq文件的网页,还需要申请,流程就很麻烦了,所以我们默认这个研究是错误的哈!







    请到「今天看啥」查看全文