专栏名称: 生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

为什么要在单细胞水平展现那些平平无奇的基因呢

生信菜鸟团 · 公众号 · 生物 · 2024-11-18 17:56

主要观点总结

本文主要介绍了单细胞转录组数据挖掘的两个策略，包括挑选单细胞转录组数据集进行降维聚类分群后选择亚群特异性高表达量基因作为课题开始，以及在课题结束后定位到少量感兴趣基因后在单细胞转录组数据集中进行可视化分析。文章还介绍了相关的实施方法、优缺点以及具体的基因功能介绍。

关键观点总结

关键观点1: 策略一：挑选单细胞转录组数据集进行降维聚类分群

首先对单细胞转录组数据进行质量控制，确定测序结果的可靠性。对质控后的数据进行表达定量分析，根据基因表达特征划分细胞群，并根据课题前期成果和研究背景挑选目的细胞亚群。对挑选出的目的细胞类型进行功能预测，或与其他类型细胞进行差异比较得出功能异同点。

关键观点2: 策略二：课题结束后定位到少量感兴趣基因后在单细胞转录组数据集中进行可视化分析

在前期的课题研究过程中，通过实验或数据分析定位到少量感兴趣的基因。在已有的单细胞转录组数据集中，利用降维聚类分群的结果，对这些基因进行可视化分析。文章还提到了数据挖掘的核心是缩小目标基因，通过各种方法缩小目标基因集，如差异分析、生存分析等。

关键观点3: 六个基因的详细介绍

文章介绍了六个基因的功能，包括Carbamoyl-phosphate Synthetase 2 (CAD)、Phosphatidylinositol Glycan Anchor Biosynthesis Class U (PIGU)、Endoplasmic Reticulum Membrane Protein Complex Subunit 3 (EMC3)、Centrosomal Protein 55 (CEP55)、Autophagy-related 10 (ATG10)和GPAA1。这些基因在细胞生物学过程中扮演着重要角色，包括细胞增殖、蛋白质合成、自噬以及细胞膜蛋白的功能。

关键观点4: 课程介绍与报名信息

文章提到了如何掌握这两个单细胞数据挖掘策略，包括生信技能树的马拉松授课内容以及报名信息、授课时间和方式等。

正文

请到「今天看啥」查看全文

单细胞转录组数据挖掘有两个很明显的策略：在任意生物学背景下挑选一个单细胞转录组数据集然后降维聚类分群后选择任意一个亚群的特异性高表达量基因作为课题开始，或者课题结束后定位到了少量感兴趣基因后去任意单细胞转录组数据集的降维聚类分群结果里面进行可视化。这两个策略及其实施方法和优缺点如下：

策略一：挑选单细胞转录组数据集进行降维聚类分群后选择亚群特异性高表达量基因作为课题开始

实施方法 ：

数据质控 ：首先对单细胞转录组数据进行质量控制，确定测序结果的可靠性，涉及比对率、Q20/Q30、平均每个细胞测得基因数等参数。
细胞分群 ：对质控后的数据进行表达定量分析，根据基因表达特征划分细胞群，并利用已发表文献或数据库查找出鉴定细胞类型的marker基因，对不同细胞类型进行命名（注释鉴定）。
挑选目标细胞亚群 ：根据课题前期成果和研究背景挑选目的细胞亚群，可能包括新细胞或稀有细胞，后续可以深入研究。
目标亚群重点分析 ：对挑选出的目的细胞类型进行功能预测，或与其他类型细胞进行差异比较得出功能异同点，解释生物学现象。

优点：

能够发现新的细胞亚群和罕见细胞类型，为研究提供新的视角。
通过聚类分群可以揭示细胞间的异质性，有助于深入理解复杂生物系统的组成。

缺点：

需要大量的前期工作来确定合适的marker基因和进行细胞类型的注释。
对于新发现的细胞亚群，可能需要额外的实验来验证其生物学功能和特性。

策略二：课题结束后定位到少量感兴趣基因后去单细胞转录组数据集的降维聚类分群结果里面进行可视化

基因定位 ：在前期的课题研究过程中，通过实验或数据分析定位到少量感兴趣的基因。
直接对目标基因进行可视化分析 ：在已有的单细胞转录组数据集中，利用降维聚类分群的结果，对这些基因进行可视化分析。使用seurat标准流程即可，不过它默认出图并不好看，详见以前我们做的投票：可视化单细胞亚群的标记基因的5个方法，下面的5个基础函数相信大家都是已经烂熟于心了：

VlnPlot(pbmc, features = c("MS4A1", "CD79A"))
FeaturePlot(pbmc, features = c("MS4A1", "CD79A"))
RidgePlot(pbmc, features = c("MS4A1", "CD79A"), ncol = 1)
DotPlot(pbmc, features = unique(features)) + RotatedAxis()
DoHeatmap(subset(pbmc, downsample = 100), features = features, size = 3)

让我们一起看看：《Single-cell and machine learning approaches uncover intrinsic immune-evasion genes in the prognosis of hepatocellular carcinoma》，直接看流程图就明白了这个单细胞数据挖掘策略，是首先前期做了tcga数据库里面的肝癌数据集的差异分析结果，然后拿它去跟182个 intrinsic immune-evasion genes (IIEGs) 进行交集，得到63个基因去做各种机器学习的生存分析缩小范围。

我一直强调：数据挖掘的核心是缩小目标基因！

各种数据挖掘文章本质上都是要把目标基因集缩小，比如表达量矩阵通常是2万多个蛋白编码基因，不管是表达芯片还是RNA-seq测序的，采用何种程度的差异分析，最后都还有成百上千个目标基因。如果是临床队列，通常是会跟生存分析进行交集，或者多个数据集差异结果的交集，比如：多个数据集整合神器-RobustRankAggreg包，这样的基因集就是100个以内的数量了， 但是仍然有缩小的空间 ，比如lasso等统计学算法，最后搞成10个左右的基因组成signature即可顺利发表。

其实还有另外一个策略方向，有点类似于人工选择啦，通常是可以往热点靠，比如肿瘤免疫，相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析， 仅仅是拿着几千个免疫相关基因的表达矩阵即可 。最近比较热门的有：自噬基因，铁死亡，EMT基因，核受体基因家族，代谢基因。还有一个最搞笑的是m6a基因的策略，完全是无厘头的基因集搞小，纯粹是为了搞小而搞小。

上面的操作把基因缩小到了6个：

以下是您提到的六个基因的详细介绍：

**Carbamoyl-phosphate Synthetase 2 (CAD)**：

功能：CAD是一种关键的酶，参与嘧啶合成途径，特别是在细胞增殖和DNA合成中。它由三个结构域组成：羧磷酸合成酶II (CPSII)、二氢鸟嘌呤合成酶 (DHO) 和ATCase结构域。CAD在氨基酸刺激下促进寡聚化，并更容易锚定在溶酶体表面，从而更好地获取谷氨酰胺，这是合成嘧啶所必需的。

**Phosphatidylinositol Glycan Anchor Biosynthesis Class U (PIGU)**：

功能：PIGU是参与糖基磷脂酰肌醇(GPI)锚定蛋白生物合成的酶。GPI锚是一类重要的翻译后修饰，对于许多细胞表面蛋白的稳定性和功能至关重要。PIGU在GPI锚的合成过程中起着核心作用。

**Endoplasmic Reticulum Membrane Protein Complex Subunit 3 (EMC3)**：

功能：EMC3是内质网膜蛋白复合体的一个亚基，参与蛋白质插入内质网膜的过程。它有助于膜插入酶活性，通过停止转移膜锚序列和尾部锚定膜蛋白插入内质网膜。EMC3是内质网膜的组成部分，也是EMC复合体的一部分。

**Centrosomal Protein 55 (CEP55)**：

功能：CEP55是一种在中心体发挥作用的蛋白质，与细胞分裂和基因组稳定性相关。CEP55的过表达与肿瘤发生相关，可以促进细胞增殖、迁移、侵袭和上皮-间质转化。在小鼠模型中，CEP55过表达的组织在p53保护效应降低时，肿瘤发生率更高。

**Autophagy-related 10 (ATG10)**：

功能：ATG10是一种E2样酶，参与自噬过程中的两种泛素样修饰，这对于自噬体的形成至关重要。ATG10参与ATG12-ATG5缀合以及MAP-LC3的修饰，将可溶性形式的MAP-LC3转化为膜结合形式。

GPAA1 ：

功能：GPAA1是GPI锚定蛋白生物合成过程中的一个亚基。它与PIGK、PIGS、PIGT和PIGU一起，共同参与GPI锚的合成。GPAA1在GPI锚定蛋白的生物合成中起着关键作用。

这些基因在细胞生物学过程中扮演着重要角色，包括细胞增殖、蛋白质合成、自噬以及细胞膜蛋白的功能。了解这些基因的功能有助于我们深入理解细胞如何响应环境变化和内部信号。

这些基因往往并不是单细胞亚群特异性高表达基因

这就是为什么，作者在定位到了这6个基因，然后随大流的使用单细胞转录组数据去可视化它们的时候，看不到任何这些基因的特殊性：

如何掌握这两个单细胞数据挖掘策略呢

当然是力图生信技能树的马拉松授课，一站式完成生物信息学的系统性入门学习！详见：生信入门&数据挖掘线上直播课12月班

如果你已经熟悉了我们的课程，就联系我们报名吧~
（添加好友务必备注高校或者工作单位+姓名+马拉松，方便后续认识）

生信入门班：
学习以转录组数据为代表的组学数据分析，包括上游分析（从下机数据到表达矩阵）和下游分析（差异分析、富集分析等），无专业偏向性，顺带学习基因表达芯片。
R语言是为下游分析打基础，linux是为上游分析打基础。

数据挖掘班：
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图，专业偏向医学（部分涉及肿瘤，但医学非肿瘤专业也适配），包含机器学习算法构建分类模型与生存模型，多篇文献讲解和文章复现。 全程使用R语言，不学习linux（因为不学上游分析）

详细比较如下：

报名时间

每个月滚动开课，随时可报名，如果错过了当月课程开始时间，可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班：
12月2日 起，连续 4个星期 ，每个星期5天，前三周上课时间为每天晚上7:30-10:30，第四周上课时间为每天晚上8:00-11:00（北京时间）。

数据挖掘班：
12月2日 起，连续 3个星期 ，每个星期5天，上课时间为每天晚上7:30-10:30（北京时间），具体日期见下图日历。

钉钉群线上直播互动授课（当天错过了可以看回放，一年内无限制回看） ，直播期间穿插练习，讲练结合，充分互动，强调在实战中进步。讲师分章节在线授课及答疑，突发情况可在线求助我们的助教团队，课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的 讲师直播答疑 ，让没有时间听直播、后来补课的学生也可以得到直播指导；课程有重大更新时，会喊毕业学员回来补课，所以其实课程远远不止45小时/60小时，我们的诚意十足！