专栏名称: 猫头鹰教室

猫头鹰教室为小张聊科研发布课程与会议信息的专属账号，带来小张聊科研最新课程培训信息，并介绍课程相关的知识点，让您随时可以get到想参加的课程，也为学员提供一个继续学习和交流的港湾

如何从单细胞测序数据中挑选基因？

猫头鹰教室 · 公众号 · · 2024-10-17 12:00

正文

请到「今天看啥」查看全文

星标小张聊科研，关注更多科研推文！

本期主题为 当导师只给我一个单细胞测序数据，我是怎么设计4个课题的…… （单击链接查看）系列的第二期，上期我们重点说的是细胞群，即如何从单细胞最常规的分析中发现感兴趣的细胞群，分别从 细胞比例变化和功能异常 两个角度展开说的，并说明了如何开展以特定细胞群为主题的研究内容。

本期我们继续说如何解读和分析单细胞测序数据，并从中发现线索后用于项目申请，与第一期不同的是，本期的主要围绕“ 从细胞的角度进行基因选择 ”来说明，并分为 6 个角度展开：

1.从挑选细胞类型共同和特异性差异基因

不同细胞类型中共同差异表达（升高或者降低）的基因 ，这类基因由于在多个细胞类型中都共同显著升高或者降低，所以在常规 RNA 测序中也是一致性比较高的，常见的热图形式是这样的：

而另外一类基因是 细胞类型特异性差异表达基因 ，即在每个细胞类型中特异显著高表达或者或者低表达的基因，基因在细胞类型中的热图是这样：

（ 注意：这里不是 marker ，而是差异基因 ）

挑选共同差异（升高或者降低）基因的好处是在表达验证上容易得到阳性结果，特别是组织层面的验证（虽然有多个不同的细胞类型，但是每个细胞类型中表达都升高或者降低），而缺点是当研究这些基因功能的时候选什么细胞就有很多讲究，因为这类基因很多是对某种刺激因素的应答基因，所以未必在某些细胞中能发挥功能；而细胞类型特异性差异基因可能在组织做 WB 、 QPCR 等验证的时候看不到差异，但是在细胞层面比较容易验证出来（ 组织或者细胞层面验证不出来的原因太多了，下次我们单独开一期说明 ）。

2.从功能富集结果中挑选热点或者通路相关基因

这个挑选的角度是从基因的功能进行的，这也是大家比较感兴趣的一个主题，具体的方法上我们在 RNA-Seq 系列中 已经通过多个案例进行了说明，除了基因表达倍数这种比较简单粗暴的逻辑外，还可以从 KEGG 、 GO 等常规的富集分析结果中进行挑选，需要注意的有几点：

a. 不管是 KEGG 、 GO 、 Reactome 等等数据库，如果一个数据库中没有富集到我们关注的某个热点、通路或者过程，不代表这个热点、通路或者过程一定是不显著的，还有很大可能是这个条目是根本就不在这个数据库中收录，所以需要核对；当然，如果你有某个热点的基因列表，可以直接看某个热点基因的差异就行；

b. 由于 KEGG 、 GO 等等数据库多数是基于文献报道对基因的功能进行归类，所以一般富集到的基因都是相对的“老基因” （只有老基因才能被归到数据库中），如果想找调控这些热点、通路或者过程的“新基因”，就要进行其他分析了；

c. 由于不少基因参与的功能是多样化的，比如 GPX4 ，不能只看到一个 GPX4 表达有变化就认为跟铁死亡有关；

d. 很多热点、通路或者过程的变化未必能通过 RNA 水平表现出来，比如有很多细胞死亡是以蛋白切割为标志、代谢重编程中酶的表达未必发生很大变化（酶活或者代谢物）。

所以如果要从功能上关注某个热点、通路或者过程，就不能只看某一个结果，还要从其他的功能条目、基因和过程上辅助验证，这样后续验证的可能性才会大很多。

3.基于SCENIC分析中挑选关键调控子

SCENIC 分析是单细胞测序中比较常见的一项，主要用于分析调控特定基因的调控子（ Regulon ，一般包括转录因子、组蛋白修饰酶等）活性差异，在给定的基因列表下，得到的一般是调控子的活性差异图，

调控子活性又对应其靶基因，而靶基因又可以参与某些热点、通路或者过程，因此可以建立调控子活性 - 靶基因 - 热点、通路或者过程的网络图。

需要注意的是：调控子活性的变化并不等同于调控子表达上有差异，原因是因为调控子的活性还受到蛋白翻译后修饰（比如常见的磷酸化修饰）、转录辅因子、蛋白定位等因素影响。换句话说：如果我们鉴定到的调控某个热点的调控子活性有差异，如果该调控子表达上有差异很好理解和解释；但是表达没有差异也可以通过其它分析进一步解释，而且这样与单纯调控子表达差异更有意思，创新性更好，故事性也更强。

最后，如果了解 SCENIC 的分析原理，还可以做更多的延伸开发，进而从富集调控子拓展到更多的类型，现在也有很多案例了，这里我们就不展开讨论了。

4. 从细胞通讯角度挑选配体-受体

细胞间通讯是大家非常关注的一个方向，其中配体 - 受体互作是研究细胞间通讯比较常用的一个角度，信号转导模型是 A 细胞的 B 配体—— C 细胞的 D 受体，这种作用方式是有方向性的，因此通过细胞间通讯可以常用来揭示某个新的细胞类型 A 发挥功能的方式： A 细胞通过 B 配体调控与疾病明确相关的 C 细胞的某个表型，比如在肿瘤研究中某个新的细胞类型通过分泌配体 VEGF 激活 EGFR 通路调控肿瘤细胞、血管内皮细胞的表型等。

同样需要注意的是：

a. 虽然鉴定到疾病组与对照组在 A 细胞配体 L-B 细胞受体 R 互作上可能存在互作强度差异，但并不完全意味着 A 细胞的配体 L 或者 B 细胞的受体 R 是有表达显著差异的；如果没有表达差异，大家在验证的时候怎么能验证出来呢？

b. 另外，配体和受体很多时候是多对多的关系，即一个配体结合多个受体，多个配体结合多个受体，而这些配体和受体的结合和作用也有不同（强弱差异、激活抑制差异），所以某个具体的配体 - 受体的互作强度差异对整个配体 - 受体对的影响也很难说；

c. 配体 L 和受体 R 的表达多数并不是只在 A 细胞和 B 细胞上，所以有可能出现 A 细胞同时表达配体 L 和 R ，从而形成自分泌途径；也有可能 A 细胞的配体 L 结合 B 、 C 、 D 细胞的 R 受体，形成旁分泌途径，因此在验证配体 - 受体互作的时候是非常有必要先确定配体 - 受体的细胞表达特征，并进行细胞 marker 与配体 - 受体共染的。

d. 与 KEGG 数据库、 SCENIC 分析等相似，配体 - 受体对的关系也要基于文献报道等先验知识，所以我们会发现鉴定到的配体 - 受体对有很多是“老分子” ；如果想发现新的配体 - 受体对，就要换分析思路和方法了。

5. 从拟时序分析中挑选基因

拟时序分析是单细胞测序中另外一个常见分析，特别是当我们关注细胞（转）分化、细胞表型转变等主题时，这是一个非常好的工具，可以帮我们找到很重要的 Marker 和功能调控基因。

举个大家很熟悉的例子：通常我们说的巨噬细胞 M1 和 M2 的极化过程，虽然这个“二极”模型非常有助于解释促炎 - 抑炎的表型，实际上在 M1-M2 过程中是有很多过渡态的，为方便理解，我们用

M1 — M1.1 — M1.2 —……— M1.9 — M2

来展示，而拟时序分析就可以帮我们筛选到随这个过程变化的基因，这些基因既有可能是 Marker ，也有可能是介导 M1 到 M2 的重要功能调控基因。

理清楚了这个大致逻辑，一个拟时序分析就能帮我们解决归属于“细胞（转）分化、细胞表型转变”的各个热点的 Marker 和关键调控基因了，特别是这个基因又是一个新基因，并且在疾病中表达有差异的时候，项目的框架马上就出来了：

新基因 X 高表达介导巨噬细胞 M1/M2 表型转变调控疾病炎症 / 纤维化 / 血管重构。

6. 明星基因的非经典表达细胞群

前面我们说挑选基因的时候考虑“新基因”，那“老基因”、“明星基因”是不是也可以创新呢？如果我们结合“老药新用”的思路来类推基因，就可以得到明星基因的非经典表达细胞群的创新点。

举个例子理解：某个明星基因大家一直认为是表达在免疫细胞（比如 CD19 在 B 细胞上），有一天我发现 CD19 在神经系统的某个细胞群上也表达，而 CD19 对这个细胞群的作用是维持血脑屏障的完整性，这样又可以讲一个不同的故事，而且还 Cell 是主刊：

除了以上 6 种方法外，还有很多方法可以从单细胞数据中挑选基因，有的会涉及到一些新的算法和思考的角度，我就不展开说明了，恳请各位专家批评指正！

如果大家有基金申请或者课题思路 上的疑问，可以联系我们进行咨询：

扫码备注：科研合作