专栏名称: 生信师兄

本公众号旨在帮助广大的生信小白更好、更轻松的入门生信，专注生信干货分享。

深度解析单细胞测序技术基本原理及质控指标

生信师兄 · 公众号 · · 2025-01-07 09:08

正文

❝
熟悉师兄公众号的都应该清楚，师兄之前的推文主要集中在各种类型的科研绘图上！但是不少粉丝小伙伴们还是反应，只知道绘图，数据不会分析，还是不行的呀！没错，拿不到可靠的分析结果，只知道绘图，这当然是远远不够的！因此， 学习各种常用的生信数据分析则必然成为了每一个生信人必须要经历的事情。 因此，后续的推文中，师兄会尽可能地多更新一些有关数据分析的内容，可能包含的系列包括《R语言数据处理基本技巧》、《从零开始学单细胞转录组》、《从零开始学空间转录组》等；

本系列，师兄将 从单细胞转录组学开始 ，带领大家一起 从零开始学单细胞 ！系列内容可以详见下方大纲！

说明： 由于本系列教程还是强调 面对完全零基础小白 ，所以很多内容师兄会介绍的非常细，对于部分已经入门的老手来说可能比较多余，所以 大家选择性阅读即可！

本系列主要内容目录，请看Part 1；

本期主要内容，请看Part 2&3；

本系列配套《生信师兄单细胞学习交流群》详情，请看Part 4；

合作服务器推荐及生信师兄粉丝专属优惠详情，请看Part 5；

如果您觉得本系列文章对你有帮助的话，欢迎 点赞、收藏、在看+转发 ！您的支持是师兄持续更新的最大动力！

Part 1 系列介绍

1.1 系列简介

❝
本系列一共包含3个主要章节，其中：

第一章：认识了解单细胞转录组 ，在本章中，师兄会详细介绍单细胞测序的产生背景、应用前景，以及单细胞测序技术的基本原理、质控标准以及上游分析流程！

第二章：常用的单细胞转录组学分析 ，单细胞转录组学的分析内容非常广泛，从基础的细胞聚类分群、差异富集，再到细胞通讯、CNV、轨迹分析、RNA velocity、转录因子等高级分析；其中的每一种分析都需要深入理解底层逻辑才能更好地使用它们，很多时候，只是复制粘贴别人的代码，套到自己的数据上却得到了完全错误的结果，这很可能就是因为你并没有理解每一步在干嘛？为啥这么干？因此，本章会从每一种分析的背景、逻辑、算法原理、代码实操等多个维度对其进行详尽地阐述。以帮助各位小伙伴能够准确无误地使用本系列代码！

第三章：单细胞文献精讲与主图复现 ，这部分师兄会通过一篇CNS级单细胞转录组学文献的主图复现，带着大家将前面所学到的知识更好地应用在实际课题当中！实现真正的学以致用！

以上就是本系列教程的内容简介，需要指出的是， 目前，师兄还没有太多的时间抽出来录课 ，因此暂时只是整理了 本系列全部分析过程的笔记和代码，以及所有示例数据！ 但是，我相信通过详尽地笔记教学及交流群的充分讨论，大部分同学还是能够轻松入门的！当然，如果后续有时间和精力，并且各位小伙伴迫切需要的话，师兄也会尽可能抽时间来录课！ 届时入群的小伙伴只需补购课差价即可！

1.2 内容大纲

Part 2 主流单细胞测序技术

❝
随着单细胞测序技术的飞速发展，研究者能够前所未有地深入挖掘单个细胞的基因表达信息。这不仅揭示了组织中细胞异质性的本质，还为疾病机制的研究开辟了新的道路。在众多技术中， Smart-seq和10x Genomics 是当前主流的两大单细胞转录组测序技术。那么， 这两项测序技术的原理是啥呢？又该通过哪些指标判断你的单细胞测序数据的质量如何呢？ 这篇文章，师兄就跟大家来聊聊这个话题！

2.1 10x Genomics技术

10x Genomics是一种基于微滴（droplet-based）的高通量单细胞转录组测序技术，它依赖于微流体技术将单个细胞和条形码（barcode）包裹在微滴中，进行高效并行的转录组分析。

2.1.1 原理解析

细胞捕获与条形码标记 ：10x Genomics使用微流控装置，将单个细胞与 含有条形码（barcode）、UMI（Unique Molecular Index，分子标签） 、引物及酶的凝胶珠（Gel Beads）与单细胞混合。 每个微滴都含有一个特定的barcodes，用于标记每个细胞的cDNA。
逆转录与扩增 ：在微滴内，细胞被裂解，释放出的mRNA与barcode结合后逆转录为cDNA。通过将所有的cDNA混合并进行PCR扩增，生成具有barcode的转录组文库。
测序：cDNA文库经过扩增后通过Illumina等测序平台进行测序。barcode用于在测序数据中区分来自不同细胞的转录本。

❝
补充阅读：很多新手小白搞不清楚Barcode和UMI是干啥的？有什么区别？

Barcode（条形码）： 是用于标记不同 细胞来源 的标签。在单细胞测序过程中，每个细胞的所有mRNA分子都会被附上独特的条形码。这样，即使多个细胞的mRNA混合测序，我们依然可以通过Barcode知道哪个数据来自哪个细胞。

UMI（唯一分子标识符）： UMI是短小的随机序列，用于标记 每个mRNA分子 。由于测序过程中需要通过PCR扩增来增加cDNA片段的数量，这个过程会产生很多重复的读段。UMI的引入可以帮助识别这些重复的扩增产物，从而消除扩增过程带来的偏差。

UMI的作用 ：

去重复 ：在测序数据中，重复的序列并不一定表示高表达，而可能是PCR扩增的结果。UMI通过给每个原始分子一个唯一的标识，使得在后续分析中可以准确地识别并去除扩增产生的重复。通过计算不同UMI的数量，可以精确估算原始mRNA的表达水平，而不依赖于PCR扩增效率，从而提高定量的准确性。

举个🌰： 有两个RNA分子，A和B，表达量分别为5和10，但是由于PCR扩增是随机的，因此不同RNA分子的扩增效率可能存在差异，如果A被扩增了10倍，B倍扩增了5倍，这种情况下A和B表达量变成一样了。为了防止这种事情发生，因此设计了UMI用来直接标记每个分子，比如，A的5个分子都分别带有不同的UMI，即使扩增后读数增加了，也只有5个独立的UMI被记录。同样，B的10个分子也带有不同的UMI，最后测序数据中，依然能通过UMI识别出原始的10个分子。 通过计算每个UMI出现的次数，而不是简单地依赖扩增后的读数，我们可以恢复出A和B的真实表达量。

2.1.2 优缺点：

优点： 10x Genomics技术的突出优点是高通量和成本较低，能够在短时间内处理数千至数万个细胞，适合大规模单细胞测序项目。
缺点： 由于是3’或5’端测序，10x Genomics不能像Smart-seq那样覆盖全长转录本，限制了对可变剪切和转录本结构信息的获取。

❝
推荐阅读：

关于10X的技术原理和一些必须要清晰认知的名词，师兄在这里给大家推荐一篇推文，个人觉得写的比较详细，有兴趣的小伙伴可以去看看：什么是10X单细胞？

2.2 Smart-seq技术

Smart-seq（Smart-seq和Smart-seq2）是一种基于 细胞内全转录组扩增的测序技术 ，通常用于分析单个细胞的完整转录组。它的关键步骤是逆转录和全长cDNA扩增，能够覆盖到每个转录本的全长。Smart-seq的优势在于其高灵敏度和准确性，尤其适合于需要分析转录本结构、可变剪切或低丰度基因的研究。

2.2.1 原理解析

细胞裂解： 通过温和的低渗溶液裂解细胞，释放出细胞内的RNA。裂解液中含有自由dNTPs（脱氧核苷三磷酸）和寡核苷酸引物，这些引物带有30nt的oligo-dT片段，专门捕获带有polyA尾的mRNA，同时包含一个25nt的通用5’锚定序列，用于启动反转录（RT）反应。自由dNTPs的加入能够提高RT-PCR的产量，确保cDNA的合成效率。
反转录（RT） ：在RT反应过程中，反转录酶会从mRNA的3’端开始逐步合成cDNA。当反转录到达mRNA的5’端时，酶会在cDNA的3’末端添加2-5个非模板碱基（untagged nucleotides）。这一步为接下来的模板转换反应（template-switching reaction）提供了条件。TSO（模板转换寡核苷酸）的3’末端携带与这些额外碱基互补的序列，并且包含与最初oligo-dT引物相同的锚定序列。这使得后续PCR仅需一种引物即可完成扩增。反转录酶通过TSO实现模板转换，在cDNA的3’端继续合成与TSO互补的序列，确保完整cDNA的生成。
预扩增： 在cDNA链合成完成后，进行有限次数的PCR扩增，以确保足够的cDNA数量用于后续的分析。这一步主要是为后续文库构建和测序提供足够的模板材料。
片段化（Tagmentation） ：通过Tagmentation技术快速高效地构建测序文库。在这一步骤中，扩增后的cDNA被片段化，并且接头连接与片段化同步完成。采用Illumina的双接头策略，确保片段化后的DNA适合后续的测序流程。
扩增并测序 ：对带有接头的DNA片段进行进一步扩增，并使用Illumina平台进行高通量测序。

2.2.2 优缺点：

优点： Smart-seq技术的全长测序使其在检测可变剪切事件、基因融合等方面表现突出，数据完整性高。
缺点： 相比于10x Genomics等高通量技术，Smart-seq的处理通量较低，通常成本更高，且对操作精度要求较高。

Part 3 单细胞测序数据中的质控标准

在进行单细胞测序时，数据的质量控制是确保结果可靠性的重要步骤。以下是单细胞测序过程中需要重点关注的质控标准， 本节我们只是初步了解一下需要哪些质控，师兄会在后续的操作中逐步带大家完成这些质控步骤：

3.1 学会看10x cellranger上游下机质控报告

3.1.1 Summary

Estimated Number of Cells： 测到的细胞数，这个数值 一般建议在2000-5000之间，太低太高都不建议 ！太低，细胞数太少，统计学上说不清楚。如果太高，一方面由于你单样本的测序深度是一定的，细胞数目多，会导致单细胞平均的测序深度下降；另一方面，如果你要为了增加细胞数目去增加测序深度，这种可行，但是很费钱，而且性价比会下降，因为本来几千个细胞就能说明白的事情没必要测一万多细胞。
Mean Reads per Cell： 单细胞平均reads数，这个和细胞数相乘就直接反应了你的测序深度了，所以他和细胞数是一个此消彼长的存在，如果你细胞数量合理，个人感觉 单细胞内的平均reads一般会在2-5w之间 。虽然很多教程写的每个细胞建议 5w 条reads，但是很多数据可能都达不到。
Median Genes per Cell： 每个细胞测到基因数目的中位数，这个也很好理解了，你的测序深度上去了，监测到的基因数目也会增加，但是这两者并不一定是线性关系，一开始提高测序深度，往往测得基因数会有明显上升，但是再提高，可能基因数上升不会太明显，因为低丰度基因往往比较难测到。这个数值，在单细胞里面一般建议在 1500-2000左右 就差不多了；

3.1.2 Sequencing

Number of reads ：测序中获得的总reads数，即对RNA片段进行测序的次数。reads数越多，数据覆盖越全面。
Valid barcodes ：经过校正后有效的条形码数量，用于唯一标识单细胞样本。高比例（通常大于90%）的有效条形码表示数据质量良好，有助于准确区分不同细胞。
Sequencing saturation ： 测序饱和度，即检测到的RNA总量的覆盖率 。饱和度高意味着样本数据充分， 通常60-80%被认为合适 ，80%以上也可以，但过高会增加成本且意义不大。
Q30 bases in barcode ：条形码序列中碱基的Q30比例，即条形码中碱基的质量达到Q30（错误率低于0.1%）的比例。这个值高表示条形码的测序精度高。
Q30 bases in RNA read ：RNA序列中碱基的Q30比例，用于衡量测序数据的准确性。高Q30比例表示RNA测序精度好，数据可信度高。
Q30 bases in UMI ：UMI（Unique Molecular Identifier）序列中碱基的Q30比例。UMI用于消除重复读取，高Q30比例的UMI表示数据质量高，有助于确保检测的分子是唯一且准确的。

3.1.3 Mapping

Reads Mapped to Genome ：测序reads成功比对到参考基因组上的总量，表示测序数据和基因组匹配的程度。这个值一般要求高于90%比较好！
Reads Mapped Confidently to Genome ：与基因组有高置信度比对的reads，通常排除低质量或不确定的比对数据；
其他就不多说了，看名字就比较好理解！

❝
注意： 如果比对到基因组的reads百分比比较低，通常可能是两种情况， 一种是参考基因组选的不合适，另一种是你的mRNA可能发生了降解，自然及没法比对到基因组上了！

3.1.4 Cells

Fraction Reads in Cells ：指测序数据中能成功分配到细胞的reads比例， 表示数据的有效性 。这个比例越高，说明数据分布更集中在细胞中。一般要求高于70%，表面你的测序
Median UMI Counts per Cell ：每个细胞中唯一分子标记（UMI）的中位数，用于估计单个细胞的表达水平。较高的UMI中位数通常表示细胞捕获的mRNA分子数量充足，反映细胞的活跃度。
Total Genes Detected ：数据中检测到的总基因数量，代表测序能捕获到的基因种类多少。检测到的基因数量越多，说明测序覆盖的基因表达谱越广， 这个和测序饱和度是相对应的。

❝
注意： 对于10x下机的质控报告，大家重点关注图中⭐️的几个参数即可，对于评估数据质量至关重要！

此外，对于 Smart-seq ，由于其捕获和测序的覆盖范围更高，Smart-seq适合低通量的单细胞测序分析。每个细胞通常需要 100,000到1,000,000 条reads，具体数据量需求与样本的复杂性及目标基因表达水平密切相关。

最后，所需的测序深度还取决于目标生物过程的复杂性。如果目标是细胞间的异质性研究或稀有细胞群体的检测，则需要更高的测序深度。如果实验仅关注特定细胞类型或标志基因的表达，则可以适当降低测序深度。

3.2 细胞质控

如前所述，单细胞测序之前，首先要做细胞分离。分离条件对某些类型的细胞不适应，造成细胞破碎或凋亡，RNA溢出，导致线粒体基因比例上升，会干扰细胞分群。因此，在Cell Ranger 生成表达矩阵之后，还需要进一步对细胞进行过滤。

3.2.1 去除破碎细胞

线粒体RNA比例过高通常意味着细胞破损或衰亡。在质控过程中，通常需要筛选出线粒体基因表达比例较高的细胞，一般会将线粒体基因比例设定为5%~30%区间内。
一些特殊样本，如肿瘤组织、心脏样本、肌肉样本，因其本身的线粒体含量偏高，固定阈值筛选原则显然是不合适的，故而此标准需要进行调整。

3.2.2 去除双细胞

双细胞（Doublets） 是指两个细胞在单细胞分离过程中由于操作或实验设计的原因被误认为是一个细胞。这会导致测序数据中出现异常高的基因表达量或多细胞类型的混合信号，从而干扰下游分析。因此，去除双细胞是单细胞测序质控中的一个重要步骤。
在质控过程中，常通过基因表达量、UMI数量或细胞聚类表现来识别双细胞。通常，双细胞会表现出 明显异常的高基因数或UMI数 ，因为它们实际上是两个或多个细胞的混合。通过设定一个合理的基因数或UMI数上限，可以有效地筛选出双细胞。此外，也可以借助一些专门的工具如 DoubletFinder 或 Scrublet 来自动检测双细胞，这些工具利用细胞的基因表达特征构建双细胞的概率模型，从而实现更精确的识别和去除。

3.3 多样本批次效应矫正

这个在后面的推文中再细聊吧！

Part 4 生信师兄单细胞学习交流群

❝
当然了，好的学习过程离不开详尽地交流讨论和重难点答疑！因此，在发布教程的同时，师兄也成立了 《生信师兄单细胞学习交流群》 用于本系列内容的学习交流。需要的小伙伴可以扫描下方二维码，添加师兄微信后备注 “单细胞学习交流群” 后付费加群！

4.1 群内资源：

本系列所有免费及付费内容的配套学习资源、代码资源及示例数据；

师兄会在群内提供不定时答疑，满足答疑要求的问题师兄会尽可能抽时间回答；

4.2 答疑要求及入群费用

关于答疑，这里先提几点要求：

不在要求范围的问题，不做解答（丑话说在前面！！！）；
代码报错： 如果是 师兄提供的系列代码和示例数据的报错，答疑完全覆盖，保证你能完整跑通代码 ；但是 如果是你自己的数据，师兄只能尽可能答疑，不保证有问必答 ，因为每个人的数据和代码都五花八门，如果逐个解决着实是忙不过来；
背景知识理解及代码理解： 这里首先强调下研究生阶段自主学习能力的培养，如果 在你进行了能力范围内地思考、搜索，仍然无法解决，师兄会在答疑时间内尽师兄的能力答疑 （因为师兄也不能保证啥都会，有些算法的细节，你来问我，我可能也需要细看文献才能理解！）
提问要求： 如果想要得到更好地答疑，首先需要 确保你描述清楚了问题 ，很多人就发个报错信息，你的代码背景是啥？数据是啥？都不提供！这种只能说爱莫能助了！因此， 提问前尽可能整理好解决这个问题可能需要的其他材料 ，尽可能让答疑者详尽地理解你的问题，从而实现更好地解答！