专栏名称: 猫头鹰教室
猫头鹰教室为小张聊科研发布课程与会议信息的专属账号,带来小张聊科研最新课程培训信息,并介绍课程相关的知识点,让您随时可以get到想参加的课程,也为学员提供一个继续学习和交流的港湾
目录
相关文章推荐
51好读  ›  专栏  ›  猫头鹰教室

如何从单细胞测序数据中挑选基因?

猫头鹰教室  · 公众号  ·  · 2024-10-17 12:00

正文

请到「今天看啥」查看全文



星标小张聊科研,关注更多科研推文!

本期主题为 当导师只给我一个单细胞测序数据,我是怎么设计4个课题的…… (单击链接查看) 系列的第二期,上期我们重点说的是细胞群,即 如何从单细胞最常规的分析中发现感兴趣的细胞群 ,分别从 细胞比例变化和功能异常 两个角度展开说的,并说明了如何开展以特定细胞群为主题的研究内容。

本期我们继续说如何解读和分析单细胞测序数据,并从中发现线索后用于项目申请,与第一期不同的是,本期的主要围绕“ 从细胞的角度进行基因选择 ”来说明,并分为 6 个角度展开:

1.从挑选细胞类型共同和特异性差异基因

不同细胞类型中共同差异表达(升高或者降低)的基因 ,这类基因由于在多个细胞类型中都共同显著升高或者降低,所以在常规 RNA 测序中也是一致性比较高的,常见的热图形式是这样的:

而另外一类基因是 细胞类型特异性差异表达基因 ,即在每个细胞类型中特异显著高表达或者或者低表达的基因,基因在细胞类型中的热图是这样:

注意:这里不是 marker ,而是差异基因

挑选共同差异(升高或者降低)基因的好处是在表达验证上容易得到阳性结果,特别是组织层面的验证(虽然有多个不同的细胞类型,但是每个细胞类型中表达都升高或者降低),而缺点是当研究这些基因功能的时候选什么细胞就有很多讲究,因为这类基因很多是对某种刺激因素的应答基因,所以未必在某些细胞中能发挥功能;而细胞类型特异性差异基因可能在组织做 WB QPCR 等验证的时候看不到差异,但是在细胞层面比较容易验证出来( 组织或者细胞层面验证不出来的原因太多了,下次我们单独开一期说明 )。


2.从功能富集结果中挑选热点或者通路相关基因

这个挑选的角度是从基因的功能进行的,这也是大家比较感兴趣的一个主题,具体的方法上我们在 RNA-Seq 系列中 已经通过多个案例进行了说明,除了基因表达倍数这种比较简单粗暴的逻辑外,还可以从 KEGG GO 等常规的富集分析结果中进行挑选,需要注意的有几点:

a. 不管是 KEGG GO Reactome 等等数据库,如果一个数据库中没有富集到我们关注的某个热点、通路或者过程, 不代表这个热点、通路或者过程一定是不显著的,还有很大可能是这个条目是根本就不在这个数据库中收录 ,所以需要核对;当然,如果你有某个热点的基因列表,可以直接看某个热点基因的差异就行;

b. 由于 KEGG GO 等等数据库多数是基于文献报道对基因的功能进行归类, 所以一般富集到的基因都是相对的“老基因” (只有老基因才能被归到数据库中),如果想找调控这些热点、通路或者过程的“新基因”,就要进行其他分析了;

c. 由于 不少基因参与的功能是多样化的 ,比如 GPX4 ,不能只看到一个 GPX4 表达有变化就认为跟铁死亡有关;

d. 很多热点、通路或者过程的变化未必能通过 RNA 水平表现出来 ,比如有很多细胞死亡是以蛋白切割为标志、代谢重编程中酶的表达未必发生很大变化(酶活或者代谢物)。

所以如果要从功能上关注某个热点、通路或者过程,就不能只看某一个结果,还要从其他的功能条目、基因和过程上辅助验证,这样后续验证的可能性才会大很多。


3.基于SCENIC分析中挑选关键调控子

SCENIC 分析是单细胞测序中比较常见的一项,主要用于分析调控特定基因的调控子( Regulon ,一般包括转录因子、组蛋白修饰酶等)活性差异,在给定的基因列表下,得到的一般是调控子的活性差异图,


调控子活性又对应其靶基因,而靶基因又可以参与某些热点、通路或者过程,因此可以建立 调控子活性 - 靶基因 - 热点、通路或者过程的网络图

需要注意的是: 调控子活性的变化并不等同于调控子表达上有差异,原因是因为调控子的活性还受到蛋白翻译后修饰(比如常见的磷酸化修饰)、转录辅因子、蛋白定位等因素影响。 换句话说:如果我们鉴定到的调控某个热点的调控子活性有差异,如果该调控子表达上有差异很好理解和解释;但是表达没有差异也可以通过其它分析进一步解释,而且这样与单纯调控子表达差异更有意思,创新性更好,故事性也更强。

最后,如果了解 SCENIC 的分析原理,还可以做更多的延伸开发,进而从富集调控子拓展到更多的类型,现在也有很多案例了,这里我们就不展开讨论了。


4. 从细胞通讯角度挑选配体-受体

细胞间通讯是大家非常关注的一个方向,其中配体 - 受体互作是研究细胞间通讯比较常用的一个角度,信号转导模型是 A 细胞的 B 配体—— C 细胞的 D 受体 ,这种作用方式是有方向性的,因此通过细胞间通讯可以常用来揭示某个新的细胞类型 A 发挥功能的方式: A 细胞通过 B 配体调控与疾病明确相关的 C 细胞的某个表型,比如在肿瘤研究中某个新的细胞类型通过分泌配体 VEGF 激活 EGFR 通路调控肿瘤细胞、血管内皮细胞的表型等。

同样需要注意的是:

a. 虽然鉴定到疾病组与对照组在 A 细胞配体 L-B 细胞受体 R 互作上可能存在互作强度差异,但 并不完全意味着 A 细胞的配体 L 或者 B 细胞的受体 R 是有表达显著差异的 ;如果没有表达差异,大家在验证的时候怎么能验证出来呢?

b. 另外,配体和受体很多时候是多对多的关系, 即一个配体结合多个受体,多个配体结合多个受体,而这些配体和受体的结合和作用也有不同(强弱差异、激活抑制差异) ,所以某个具体的配体 - 受体的互作强度差异对整个配体 - 受体对的影响也很难说;

c. 配体 L 和受体 R 的表达多数并不是只在 A 细胞和 B 细胞上 ,所以有可能出现 A 细胞同时表达配体 L R ,从而形成自分泌途径;也有可能 A 细胞的配体 L 结合 B C D 细胞的 R 受体,形成旁分泌途径,因此在验证配体 - 受体互作的时候是非常有必要先确定配体 - 受体的细胞表达特征,并进行细胞 marker 与配体 - 受体共染的。

d. KEGG 数据库、 SCENIC 分析等相似, 配体 - 受体对的关系也要基于文献报道等先验知识,所以我们会发现鉴定到的配体 - 受体对有很多是“老分子” ;如果想发现新的配体 - 受体对,就要换分析思路和方法了。


5. 从拟时序分析中挑选基因

拟时序分析是单细胞测序中另外一个常见分析,特别是当我们关注细胞(转)分化、细胞表型转变等主题时,这是一个非常好的工具,可以帮我们找到很重要的 Marker 和功能调控基因。

举个大家很熟悉的例子:通常我们说的巨噬细胞 M1 M2 的极化过程,虽然这个“二极”模型非常有助于解释促炎 - 抑炎的表型,实际上在 M1-M2 过程中是有很多过渡态的,为方便理解,我们用

M1 M1.1 M1.2 —……— M1.9 M2

来展示,而拟时序分析就可以帮我们筛选到随这个过程变化的基因,这些基因既有可能是 Marker ,也有可能是介导 M1 M2 的重要功能调控基因。

理清楚了这个大致逻辑,一个拟时序分析就能帮我们解决归属于“细胞(转)分化、细胞表型转变”的各个热点的 Marker 和关键调控基因了,特别是这个基因又是一个新基因,并且在疾病中表达有差异的时候,项目的框架马上就出来了:

新基因 X 高表达介导巨噬细胞 M1/M2 表型转变调控疾病炎症 / 纤维化 / 血管重构。


6. 明星基因的非经典表达细胞群

前面我们说挑选基因的时候考虑“新基因”,那“老基因”、“明星基因”是不是也可以创新呢?如果我们结合“老药新用”的思路来类推基因,就可以得到 明星基因的非经典表达细胞群的创新点

举个例子理解:某个明星基因大家一直认为是表达在免疫细胞(比如 CD19 B 细胞上),有一天我发现 CD19 在神经系统的某个细胞群上也表达,而 CD19 对这个细胞群的作用是维持血脑屏障的完整性,这样又可以讲一个不同的故事,而且还 Cell 是主刊:

除了以上 6 种方法外,还有很多方法可以从单细胞数据中挑选基因,有的会涉及到一些新的算法和思考的角度,我就不展开说明了,恳请各位专家批评指正!


如果大家有基金申请或者课题思路 上的疑问,可以联系我们进行咨询:
扫码备注:科研合作







请到「今天看啥」查看全文