专栏名称: 观科研
让医学科研有迹可循
目录
相关文章推荐
51好读  ›  专栏  ›  观科研

单细胞组学 | 第28期. 拟时序分析,看这里!

观科研  · 公众号  ·  · 2024-09-28 23:00

正文

请到「今天看啥」查看全文




本系列推送旨在带领 生信零基础 的科研人一起入门单细胞(核)转录组数据分析。


往期回顾:

MASCU

第1期.单细胞测序:揭开生命奥秘的钥匙

第2期.下游数据质控知多少

第3期.Seurat之PBMC分析标准化流程

第4期. 写文章时需要用到的单细胞转录组测序原理

第5期. 单细胞测序文件面面观

第6期. 10X genomics 上游分析-cellranger介绍

第7期. 10X genomics 上游分析-cellranger应用

第8期.一文打通单细胞测序研究思路

第9期.Zenodo一个宝藏公共数据库和单细胞的不解之缘

第10期.生物信息学必须了解的数据库

第11期.不会还有人不知道这个免费一年的云服务吧!?

第12期.单细胞分析数据下载、导入和合并

第13期.单细胞测序中竟然存在双细胞?

第14期.想发单细胞测序文章?这一步必学!

第15期.一份强烈推荐收藏的细胞周期校正宝典!

第16期.不可不知的单细胞流程

第17期. 找到Cluster的领头羊

第18期. 单细胞注释不再是烦恼!

第19期. 单细胞数据分析的核心环节,必学!

第20期. 美无极限——卷起来的UMAP图美化方案

第22期. 单细胞转录组基础分析流程详解
第23期. 单细胞数据分析的灵魂,学起来!
第24期. 找到属于你的细胞亚群!
第25期. 单细胞亚群细分
第26期. 一个函数搞定单细胞富集分析!
第27期. 想发高分?干湿结合才是王炸!






在本系列的推送中,我们之前给大家分享了单细胞(核)RNA测序的原理、基于 Cellranger的上游分析 数据下载/导入/合并 数据质控 、数据处理技能(包括 细胞周期矫正 /去批次/差异分析/ 富集分析 )、 细胞注释 以及 图片美化方案 干湿结合比较 。本期主要给大家分享拟时序分析的原理,以及带大家探索如何用monocle 2包进行拟时序分析。


一、什么是拟时序分析


Pseudotime analysis


拟时序分析(Pseudotime Analysis),又称细胞轨迹分析(Cell Trajectory Analysis),是一种在单细胞转录组学中常用的方法,通过对细胞在特定生物过程中的转录组数据进行排序,推断其发展或变化的时间顺序。尽管单细胞数据通常是静态的(在一个时间点采集),拟时序分析通过基因表达的变化模式来重建细胞的发育轨迹或动态过程,从而模拟细胞随时间推移的变化,揭示细胞在不同状态下的演变路径和关键转折点。


拟时序分析的主要目的包括:
1. 推断细胞的发育阶段: 通过分析基因表达变化,将处于不同分化阶段的细胞排序,模拟出一个拟时间轴。
2. 识别关键的基因调控事件: 通过比较不同拟时间阶段的细胞,识别在特定转折点上调或下调的基因,找出与细胞分化或功能转换相关的关键分子。
3. 推断细胞状态转换: 分析细胞从一种状态向另一种状态过渡的动态变化,尤其在干细胞分化或疾病模型中应用广泛。


二、 常用的拟时序分析的方法:


Command methods


常用的工具有:
(1)Slingshot: 结合聚类和轨迹推断,用于处理复杂的分支结构,本篇示例数据原文中使用的slingshot


Figure 2.G, Trajectory and pseudotime of VSMCs inferred using Slingshot.


(2)Monocle: 通过降维技术(如DDRTree或UMAP)将细胞投射到低维空间并构建拟时间轨迹。


Simats et al., Innate immune memory after brain injury drives inflammatory cardiac dysfunction, Cell (2024) 文中分析卒中后心脏驻留免疫细胞时使用了Monocle 3进行分析。


3 RNA velocity 特定基因的转录诱导导致 ( 新转录的 ) 前体未剪接 mRNA 的增加,相反地,转录抑制或缺乏导致未剪接 mRNA 的减少。通过这一规律将测量结果与潜在的 mRNA 剪接动力学相连接来推断细胞的定向轨迹,可以近似地了解 mRNA 丰度 (RNA 速度 ) 的变化,用来估计单个细胞的未来状态。



Bergen V, Soldatov RA, Kharchenko PV, Theis FJ. RNA velocity-current challenges and future perspectives. Mol Sy st Biol. 2021;17(8):e10282.


三、Monocle2 拟时序分析:


Pseudotime analysis


1. 加载必要的包和数据
library(monocle)
packageVersion('monocle')

2. 数据准备
Idents(Hu_AO_db_QC2) $New_celltype
#画图看一下
DimPlot(Hu_AO_db_QC2, reduction = "umap",group.by = "New_celltype",label = T)

SMC_cells "SMC1", "SMC2""SMC3""SMC4"))
DimPlot(SMC_cells,reduction = "umap",group.by = "New_celltype",label = T)


# 使用 GetAssayData 提取数据
monocle.matrix "counts", assay = "RNA"), 'sparseMatrix')
# 提取元数据
monocle.sample # 创建基因注释数据框
monocle.geneAnn # 创建细胞注释数据框
monocle.sample monocle.geneAnn 



3. 创建 Monocle 对象

# 创建Monocle的CellDataSet对象
pd"AnnotatedDataFrame", data = monocle.sample)
fd"AnnotatedDataFrame", data = monocle.geneAnn)
cds 


4. 数据预处理
# 估算大小因子并进行归一化
cds cds 
# 过滤低质量的细胞
cds cds $num_cells_expressed > 10, 


5. 选择轨迹分析的高变基因
# 设置表达量阈值,选择用于轨迹分析的基因




    

expressed_genes = 10))

# 差异表达基因的识别
diff_test_res "~New_celltype")

# 选择显著差异的基因
ordering_genes 
# 设置轨迹分析的基因
cds 


6. 降维和轨迹推断
# 使用DDRTree方法进行降维
cds 'DDRTree')

# 轨迹推断
cds plot_ordering_genes(cds)


7. 可视化

1 )按亚群类型进行着色

plot_cell_trajectory(cds, color_by = "New_celltype")



2 )按 pseudotime 进行着色

plot_cell_trajectory(cds, color_by = "Pseudotime")



3 )按照 state 进行着色
plot_cell_trajectory(cds, color_by = "State")



state 的多少是 Monocle 算出来的,不能调整,与输入的用于轨迹学习的基因有关。分叉和顶点之间或者顶点和顶点之间为一个 state,与发育轨迹时间先后没有关系,与细胞类型也不完全相关。


(4)根据不同的状态来分面
plot_cell_trajectory(cds, color_by = "State")+facet_wrap(~State, nrow = 3)



5 )树形图

plot_complex_cell_trajectory(cds,color_by = "New_celltype") +  theme(legend.title = element_blank())  # 去除图例名



6 )基因时序图

cgplot_genes_in_pseudotime(cds[cg,],color_by = "New_celltype")



7 )差异最显著的基因

p                        grouping = "New_celltype",                       
                       color_by = "New_celltype",
                       nrow=3,                       
                       ncol = NULL)
p + theme(axis.text.x = element_blank()) # 去除横坐标轴标签



8 )选定关注的基因并查看其在拟时中的表达

pData(cds)$CEBPD=log2(exprs(cds)['CEBPD',]+1)
plot_cell_trajectory(cds, color_by = 'CEBPD') +   scale_color_gsea()



9 )沿时间轴的细胞密度图
library(ggpubr) 
df ggplot(df,        
       aes(Pseudotime,            
           colour = New_celltype,            
           fill = New_celltype)) +     
  geom_density( # 绘制密度图
    bw=0.5,#带宽
    size=0.8,#粗细
    alpha=0.5)+ #透明度
  theme_classic2() # 取消网格背景



那么这就是本期的全部内容啦,你学会了吗? 大家对于推送内容有任何问题或建议可以在公众号菜单栏 “更多--读者的话 栏目中提出,我们会尽快回复!


参考文献:

[1] Hu Z, Liu W, Hua X, et al. Single-Cell Transcriptomic Atlas of Different Human Cardiac Arteries Identifies Cell Types Associated With Vascular Physiology. Arterioscler Thromb Vasc Biol. 2021;41(4):1408-1427.
[2] http://cole-trapnell-lab.github.io/monocle-release/docs/
[3] Simats A, Zhang S, Messerer D, et al. Innate immune memory after brain injury drives inflammatory cardiac dysfunction. Cell. 2024 Aug 22;187(17):4637-4655.e26.
[4] Bergen V, Soldatov RA, Kharchenko PV, Theis FJ. RNA velocity-current challenges and future perspectives. Mol Syst Biol. 2021;17(8):e10282.
  1. 1. Simats A, Zhang S, Messerer D, et al. Innate immune memory after brain injury drives inflammatory cardiac dysfunction. Cell. 2024 Aug 22;187(17):4637-4655.e26.


///期待已久 R语言与组学交流群!


Chat Group

#2024#

请添加下方微信,备注:“R语言与组学_互助交流群” 将拉入群中。




写在最后

“观科研” (点击进一步了解我们吧) 是由一群北京协和医学院(清华大学医学部)的博士开创的公众号,初心是 让医学科研有迹可循 ,帮助一线的医学科研人员更快地成长,希望大家支持与关注!

如果大家对 分享医学科研知识 感兴趣, 特别欢迎加入我们,期待与您的相遇相识相知 ,也非常欢迎大家自主投稿,如果您有需要分享的内容或对我们有任何建议,可通过后台留言、 公众号菜单栏 “更多—读者的话” 栏目 进一步了解) 或发送邮件至[email protected]与我们交流并留下个人联系方式,我们会及时与您联系。

如果您觉得我们长期的干货推送对您的科研工作有所帮助,可以在合适的机会致谢(包括但不限于SCI论文、毕业论文等),格式如下:
The authors thank the support of Skill Learning from Kaixin Doctor and MASCU (Medical Association with Science, Creativity, and Unity), Inc, Shenzhen, China ([email protected]).

【大家的支持,是我们持续更新的动力!】


Pay attention!
微信公众号的推送规则发生改变(不再按照时间顺序来显示),如果没有将“观科研”设置为 星标 ,你就可能错失里面的精彩推送。


点击“在看”,可参与讨论哦!


图文:某观
审核:壮观
编辑:直观
责编:静观







请到「今天看啥」查看全文