星标小张聊科研,关注更多科研推文!
本期主题为
当导师只给我一个单细胞测序数据,我是怎么设计4个课题的……
(单击链接查看)
系列的第二期,上期我们重点说的是细胞群,即
如何从单细胞最常规的分析中发现感兴趣的细胞群
,分别从
细胞比例变化和功能异常
两个角度展开说的,并说明了如何开展以特定细胞群为主题的研究内容。
本期我们继续说如何解读和分析单细胞测序数据,并从中发现线索后用于项目申请,与第一期不同的是,本期的主要围绕“
从细胞的角度进行基因选择
”来说明,并分为
6
个角度展开:
1.从挑选细胞类型共同和特异性差异基因
不同细胞类型中共同差异表达(升高或者降低)的基因
,这类基因由于在多个细胞类型中都共同显著升高或者降低,所以在常规
RNA
测序中也是一致性比较高的,常见的热图形式是这样的:
而另外一类基因是
细胞类型特异性差异表达基因
,即在每个细胞类型中特异显著高表达或者或者低表达的基因,基因在细胞类型中的热图是这样:
(
注意:这里不是
marker
,而是差异基因
)
挑选共同差异(升高或者降低)基因的好处是在表达验证上容易得到阳性结果,特别是组织层面的验证(虽然有多个不同的细胞类型,但是每个细胞类型中表达都升高或者降低),而缺点是当研究这些基因功能的时候选什么细胞就有很多讲究,因为这类基因很多是对某种刺激因素的应答基因,所以未必在某些细胞中能发挥功能;而细胞类型特异性差异基因可能在组织做
WB
、
QPCR
等验证的时候看不到差异,但是在细胞层面比较容易验证出来(
组织或者细胞层面验证不出来的原因太多了,下次我们单独开一期说明
)。
2.从功能富集结果中挑选热点或者通路相关基因
这个挑选的角度是从基因的功能进行的,这也是大家比较感兴趣的一个主题,具体的方法上我们在
RNA-Seq
系列中
已经通过多个案例进行了说明,除了基因表达倍数这种比较简单粗暴的逻辑外,还可以从
KEGG
、
GO
等常规的富集分析结果中进行挑选,需要注意的有几点:
a.
不管是
KEGG
、
GO
、
Reactome
等等数据库,如果一个数据库中没有富集到我们关注的某个热点、通路或者过程,
不代表这个热点、通路或者过程一定是不显著的,还有很大可能是这个条目是根本就不在这个数据库中收录
,所以需要核对;当然,如果你有某个热点的基因列表,可以直接看某个热点基因的差异就行;
b.
由于
KEGG
、
GO
等等数据库多数是基于文献报道对基因的功能进行归类,
所以一般富集到的基因都是相对的“老基因”
(只有老基因才能被归到数据库中),如果想找调控这些热点、通路或者过程的“新基因”,就要进行其他分析了;
c.
由于
不少基因参与的功能是多样化的
,比如
GPX4
,不能只看到一个
GPX4
表达有变化就认为跟铁死亡有关;
d.
很多热点、通路或者过程的变化未必能通过
RNA
水平表现出来
,比如有很多细胞死亡是以蛋白切割为标志、代谢重编程中酶的表达未必发生很大变化(酶活或者代谢物)。
所以如果要从功能上关注某个热点、通路或者过程,就不能只看某一个结果,还要从其他的功能条目、基因和过程上辅助验证,这样后续验证的可能性才会大很多。
3.基于SCENIC分析中挑选关键调控子
SCENIC
分析是单细胞测序中比较常见的一项,主要用于分析调控特定基因的调控子(
Regulon
,一般包括转录因子、组蛋白修饰酶等)活性差异,在给定的基因列表下,得到的一般是调控子的活性差异图,
调控子活性又对应其靶基因,而靶基因又可以参与某些热点、通路或者过程,因此可以建立
调控子活性
-
靶基因
-
热点、通路或者过程的网络图
。
需要注意的是:
调控子活性的变化并不等同于调控子表达上有差异,原因是因为调控子的活性还受到蛋白翻译后修饰(比如常见的磷酸化修饰)、转录辅因子、蛋白定位等因素影响。
换句话说:如果我们鉴定到的调控某个热点的调控子活性有差异,如果该调控子表达上有差异很好理解和解释;但是表达没有差异也可以通过其它分析进一步解释,而且这样与单纯调控子表达差异更有意思,创新性更好,故事性也更强。
最后,如果了解
SCENIC
的分析原理,还可以做更多的延伸开发,进而从富集调控子拓展到更多的类型,现在也有很多案例了,这里我们就不展开讨论了。
4. 从细胞通讯角度挑选配体-受体
细胞间通讯是大家非常关注的一个方向,其中配体
-
受体互作是研究细胞间通讯比较常用的一个角度,信号转导模型是
A
细胞的
B
配体——
C
细胞的
D
受体
,这种作用方式是有方向性的,因此通过细胞间通讯可以常用来揭示某个新的细胞类型
A
发挥功能的方式:
A
细胞通过
B
配体调控与疾病明确相关的
C
细胞的某个表型,比如在肿瘤研究中某个新的细胞类型通过分泌配体
VEGF
激活
EGFR
通路调控肿瘤细胞、血管内皮细胞的表型等。
同样需要注意的是:
a.
虽然鉴定到疾病组与对照组在
A
细胞配体
L-B
细胞受体
R
互作上可能存在互作强度差异,但
并不完全意味着
A
细胞的配体
L
或者
B
细胞的受体
R
是有表达显著差异的
;如果没有表达差异,大家在验证的时候怎么能验证出来呢?
b.
另外,配体和受体很多时候是多对多的关系,
即一个配体结合多个受体,多个配体结合多个受体,而这些配体和受体的结合和作用也有不同(强弱差异、激活抑制差异)
,所以某个具体的配体
-
受体的互作强度差异对整个配体
-
受体对的影响也很难说;
c.
配体
L
和受体
R
的表达多数并不是只在
A
细胞和
B
细胞上
,所以有可能出现
A
细胞同时表达配体
L
和
R
,从而形成自分泌途径;也有可能
A
细胞的配体
L
结合
B
、
C
、
D
细胞的
R
受体,形成旁分泌途径,因此在验证配体
-
受体互作的时候是非常有必要先确定配体
-
受体的细胞表达特征,并进行细胞
marker
与配体
-
受体共染的。
d.
与
KEGG
数据库、
SCENIC
分析等相似,
配体
-
受体对的关系也要基于文献报道等先验知识,所以我们会发现鉴定到的配体
-
受体对有很多是“老分子”
;如果想发现新的配体
-
受体对,就要换分析思路和方法了。
5. 从拟时序分析中挑选基因
拟时序分析是单细胞测序中另外一个常见分析,特别是当我们关注细胞(转)分化、细胞表型转变等主题时,这是一个非常好的工具,可以帮我们找到很重要的
Marker
和功能调控基因。
举个大家很熟悉的例子:通常我们说的巨噬细胞
M1
和
M2
的极化过程,虽然这个“二极”模型非常有助于解释促炎
-
抑炎的表型,实际上在
M1-M2
过程中是有很多过渡态的,为方便理解,我们用
M1
—
M1.1
—
M1.2
—……—
M1.9
—
M2
来展示,而拟时序分析就可以帮我们筛选到随这个过程变化的基因,这些基因既有可能是
Marker
,也有可能是介导
M1
到
M2
的重要功能调控基因。
理清楚了这个大致逻辑,一个拟时序分析就能帮我们解决归属于“细胞(转)分化、细胞表型转变”的各个热点的
Marker
和关键调控基因了,特别是这个基因又是一个新基因,并且在疾病中表达有差异的时候,项目的框架马上就出来了:
新基因
X
高表达介导巨噬细胞
M1/M2
表型转变调控疾病炎症
/
纤维化
/
血管重构。
6. 明星基因的非经典表达细胞群
前面我们说挑选基因的时候考虑“新基因”,那“老基因”、“明星基因”是不是也可以创新呢?如果我们结合“老药新用”的思路来类推基因,就可以得到
明星基因的非经典表达细胞群的创新点
。
举个例子理解:某个明星基因大家一直认为是表达在免疫细胞(比如
CD19
在
B
细胞上),有一天我发现
CD19
在神经系统的某个细胞群上也表达,而
CD19
对这个细胞群的作用是维持血脑屏障的完整性,这样又可以讲一个不同的故事,而且还
Cell
是主刊:
除了以上
6
种方法外,还有很多方法可以从单细胞数据中挑选基因,有的会涉及到一些新的算法和思考的角度,我就不展开说明了,恳请各位专家批评指正!
如果大家有基金申请或者课题思路
上的疑问,可以联系我们进行咨询: