本期我们说一下如何解读和分析单细胞测序数据,并从中发现线索后用于后续的研究,分为
6
个角度展开:
1.从挑选细胞类型共同和特异性差异基因
不同细胞类型中
共同差异表达(升高或者降低)
的基因
,这类基因由于在多个细胞类型中都共同显著升高或者降低,所以在常规
RNA
测序中也是一致性比较高的,常见的热图形式是这样的:
而另外一类基因是
细胞类型特异性差异表达基因
,即在每个细胞类型中特异显著高表达或者或者低表达的基因,基因在细胞类型中的热图是这样:
(
注意:这里不是
marker
,而是差异基因
)
挑选共同差异(升高或者降低)基因的好处是在表达验证上
容易得到阳性结果,特别是组织层面的验证(虽然有多个不同的细胞类型,但是每个细胞类型中表达都升高或者降低)
,而缺点是当研究这些基因功能的时候选什么细胞就有很多讲究,因为这类基因很多是对某种刺激因素的应答基因,所以未必在某些细胞中能发挥功能;而细胞类型特异性差异基因可能在组织做
WB
、
QPCR
等验证的时候看不到差异,但是在细胞层面比较容易验证出来。
2.从功能富集结果中挑选热点或者通路相关基因
这个挑选的角度是从基因的功能进行的,这也是大家比较感兴趣的一个主题,具体的方法上我们在
RNA-Seq
系列中
已经通过多个案例进行了说明,除了基因表达倍数这种比较简单粗暴的逻辑外,还可以从
KEGG
、
GO
等常规的富集分析结果中进行挑选,需要注意的有几点:
a.
不管是
KEGG
、
GO
、
Reactome
等等数据库,如果一个数据库中没有富集到我们关注的某个热点、通路或者过程,
不代表这个热点、通路或者过程一定是不显著的,
还有很大可能是这个条目是根本就不在这个数据库中收录
,所以需要核对;当然,如果你有某个热点的基因列表,可以直接看某个热点基因的差异就行;
b.
由于
KEGG
、
GO
等等数据库多数是基于文献报道对基因的功能进行归类,
所以一般富集到的基因都是相对的“老基因”
(只有老基因才能被归到数据库中),如果想找调控这些热点、通路或者过程的“新基因”,就要进行其他分析了;
c.
由于
不少基因参与的功能是多样化的
,比如
GPX4
,不能只看到一个
GPX4
表达有变化就认为跟铁死亡有关
;
d.
很多热点、通路或者过程的变化未必能通过
RNA
水平表现出来
,比如
有很多细胞死亡是以蛋白切割为标志
。
所以如果要从功能上关注某个热点、通路或者过程,就不能只看某一个结果,还要从其他的功能条目、基因和过程上辅助验证,这样后续验证的可能性才会大很多。
3.基于SCENIC分析中挑选关键调控子
SCENIC
分析是单细胞测序中比较常见的一项,主要用于
分析调控特定基因的调控子(
Regulon
,一般包括转录因子、组蛋白修饰酶等)活性差异
,在给定的基因列表下,得到的一般是调控子的活性差异图:
调控子活性又对应其靶基因,而靶基因又可以参与某些热点、通路或者过程,因此可以建立
调控子活性
-
靶基因
-
热点、通路或者过程的网络图
。
需要注意的是:
调控子活性的变化并不等同于调控子表达上有差异,
原因是因为调控子的活性还受到蛋白翻译后修饰(比如常见的磷酸化修饰)、转录辅因子、蛋白定位等因素影响
。
换句话说:如果我们鉴定到的调控某个热点的调控子活性有差异,如果该调控子表达上有差异很好理解和解释;但是表达没有差异也可以通过其它分析进一步解释,而且这样与单纯调控子表达差异更有意思,创新性更好,故事性也更强。
4. 从细胞通讯角度挑选配体-受体
细胞间通讯是大家非常关注的一个方向,其中配体
-
受体互作是研究细胞间通讯比较常用的一个角度,信号转导模型是
A
细胞的
B
配体——
C
细胞的
D
受体
,这种作用方式是有方向性的,因此通过细胞间通讯可以常用来揭示某个新的细胞类型
A
发挥功能的方式:
A
细胞通过
B
配体调控与疾病明确相关的
C
细胞的某个表型,比如在肿瘤研究中某个新的细胞类型通过分泌配体
VEGF
激活
EGFR
通路调控肿瘤细胞、血管内皮细胞的表型等。