我们在《单细胞天地》公众号给初学者整理了一个基于r编程语言的Seurat体系的单细胞转录组数据分析可视化专辑,是时候推荐给大家了:
单细胞分析中小提琴图用途
小提琴图是一种在单细胞RNA测序数据分析中常用的可视化工具,它能够
展示数据分布的密度估计,并且可以用于比较多个群组的基因表达水平
。
比如在单细胞分析中,在进行质控前,会使用小提琴图可视化
nFeature_RNA, nCount_RNA, percent.mt
,辅助我们选择合适的阈值进行质控
# Visualize QC metrics as a violin plot
VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
在
可视化Marker基因
的时候,VlnPlot也是非常常用的一种方法!
之前的推文有详细整理过
ncount_RNA 和nFeature_RNA辅助过滤
,那这期我们
一起来学习了解一下VlnPlot小提琴图可视化marker基因!
VlnPlot可视化辅助质控
虽然之前的推文有详细整理过
ncount_RNA 和nFeature_RNA辅助过滤
,但是好像
仅仅只介绍了一下数据以及阈值选择
,没有介绍一下小提琴图的结果,所以补充一下
在小提琴图结果解析:
-
在小提琴图中,
x轴代表不同的样本或细胞群组,y轴代表数值(如基因表达水平)
。每个“小提琴”描述了一个群组中数值的分布情况。
-
中间较宽的部分表示数据点比较集中的区域
,即大多数细胞的基因数量或RNA分子总数落在这个范围内。
-
两端较细的部分表示数据点较少的区域
,即较少的细胞具有这些数值。
-
通过观察小提琴图的形状和分布,可以直观地看出
数据的集中趋势、离散程度和潜在的异常值
。
VlnPlot可视化marker基因
使用到的还是PBMC3k的数据,走完降维聚类分群之后,使用FindAllMarkers计算所有簇的Marker基因
#计算所有簇的Marker基因,并且可视化TOP5基因
# only.pos = TRUE,只关注上调;min.pct = 0.25,一个基因至少要在25%的细胞中表达
pbmc.markers <- FindAllMarkers(pbmc, only.pos = TRUE, min.pct = 0.25, logfc.threshold = 0.25, verbose = FALSE)
top5 = pbmc.markers %>% group_by(cluster) %>% top_n(n = 5, wt = avg_log2FC)
g = unique(top5$gene)
可视化结果浅析
首先
选择一个基因进行可视化展示,并且将结果数据保存为一个变量,进行查看
p1 = VlnPlot(pbmc, features = "MS4A1")
p1
-
在小提琴图中,
x轴代表不同的样本或细胞群组,y轴代表基因表达水平
。通过观察各个群组的小提琴图形状和位置,可以了解MS4A1在不同细胞群组中的表达分布。
-
小提琴图中的宽度代表了各个表达水平的细胞数量。较宽的部分表示该表达水平的细胞较多,较窄或不存在的部分表示较少或没有细胞具有该表达水平。
。
-
小提琴图的轮廓显示了数据的概率密度,而
图中的点则代表细胞表达的数量
,这些点有助于直观地看到数据的分布。
-
由图可得
MS4A1基因在B细胞群组中表达量较高,而在其他细胞群组中表达量较低或不表达
。
绘图数据概要
> class(p1)
[1] "patchwork" "gg" "ggplot"
通过class查看结果数据的类型,
其中"patchwork"表示p1是一个经过patchwork处理的复合图形,而"gg"和"ggplot"表示它是基于ggplot2创建的图形对象。
-
-
一个包含2638行和2列的数据框架(data.frame)。用于生成小提琴图的数据集,其中每一行代表一个细胞。
-
可以通过
View(p1[[1]][["data"]])
查看,
基于表达量排序之后可以看到是在B细胞中高表达
-
-
表示构成图形的图层。在ggplot2中,图层可以包括几何对象(如点、线、面等),统计变换,数据映射等。
-
-
定义了图形的比例尺,例如x轴和y轴的取值范围和断点。
-
-
-
定义了数据如何映射到图形的美学属性上,例如颜色、形状、大小等。
-
-
-
表示图形使用的坐标系统,例如笛卡尔坐标、极坐标等。
-
-
表示图形是否使用了分面,分面可以将数据的子集并排或堆叠显示。
-
-
存储了图形的计算环境,可能包含用于计算图形的变量和函数。
-
常用参数
除了导入结果数据的object以及需要绘制的features基因集,还可以
修改颜色和点的大小和透明度
:
选择需要展示的细胞群组以及分组信息: