专栏名称: 生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
目录
相关文章推荐
ZaomeDesign  ·  每日灵感丨二月七日 ·  2 天前  
字体设计  ·  Ai绘画正在占领视觉,火爆全球的Deepse ... ·  3 天前  
字体设计  ·  好看的字体要配上好的文字编排 ·  3 天前  
51好读  ›  专栏  ›  生信技能树

VlnPlot结果及常用参数浅析

生信技能树  · 公众号  ·  · 2024-10-29 22:18

正文

我们在《单细胞天地》公众号给初学者整理了一个基于r编程语言的Seurat体系的单细胞转录组数据分析可视化专辑,是时候推荐给大家了:

单细胞分析中小提琴图用途

小提琴图是一种在单细胞RNA测序数据分析中常用的可视化工具,它能够 展示数据分布的密度估计,并且可以用于比较多个群组的基因表达水平

比如在单细胞分析中,在进行质控前,会使用小提琴图可视化 nFeature_RNA, nCount_RNA, percent.mt ,辅助我们选择合适的阈值进行质控

# Visualize QC metrics as a violin plot
VlnPlot(pbmc, features = c("nFeature_RNA""nCount_RNA""percent.mt"), ncol = 3)

可视化Marker基因 的时候,VlnPlot也是非常常用的一种方法!

之前的推文有详细整理过 ncount_RNA 和nFeature_RNA辅助过滤 ,那这期我们 一起来学习了解一下VlnPlot小提琴图可视化marker基因!

VlnPlot可视化辅助质控

虽然之前的推文有详细整理过 ncount_RNA 和nFeature_RNA辅助过滤 ,但是好像 仅仅只介绍了一下数据以及阈值选择 ,没有介绍一下小提琴图的结果,所以补充一下

在小提琴图结果解析:

  • 在小提琴图中, x轴代表不同的样本或细胞群组,y轴代表数值(如基因表达水平) 。每个“小提琴”描述了一个群组中数值的分布情况。
  • 中间较宽的部分表示数据点比较集中的区域 ,即大多数细胞的基因数量或RNA分子总数落在这个范围内。
  • 两端较细的部分表示数据点较少的区域 ,即较少的细胞具有这些数值。
  • 通过观察小提琴图的形状和分布,可以直观地看出 数据的集中趋势、离散程度和潜在的异常值

VlnPlot可视化marker基因

使用到的还是PBMC3k的数据,走完降维聚类分群之后,使用FindAllMarkers计算所有簇的Marker基因

#计算所有簇的Marker基因,并且可视化TOP5基因
# only.pos = TRUE,只关注上调;min.pct = 0.25,一个基因至少要在25%的细胞中表达
pbmc.markers <- FindAllMarkers(pbmc, only.pos = TRUE, min.pct = 0.25,  logfc.threshold = 0.25, verbose = FALSE)
top5 = pbmc.markers %>% group_by(cluster) %>% top_n(n = 5, wt = avg_log2FC)
g = unique(top5$gene)

可视化结果浅析

首先 选择一个基因进行可视化展示,并且将结果数据保存为一个变量,进行查看

p1 = VlnPlot(pbmc, features = "MS4A1")
p1
  • 在小提琴图中, x轴代表不同的样本或细胞群组,y轴代表基因表达水平 。通过观察各个群组的小提琴图形状和位置,可以了解MS4A1在不同细胞群组中的表达分布。
  • 小提琴图中的宽度代表了各个表达水平的细胞数量。较宽的部分表示该表达水平的细胞较多,较窄或不存在的部分表示较少或没有细胞具有该表达水平。
  • 小提琴图的轮廓显示了数据的概率密度,而 图中的点则代表细胞表达的数量 ,这些点有助于直观地看到数据的分布。
  • 由图可得 MS4A1基因在B细胞群组中表达量较高,而在其他细胞群组中表达量较低或不表达

绘图数据概要

> class(p1)
[1] "patchwork" "gg"        "ggplot" 

通过class查看结果数据的类型, 其中"patchwork"表示p1是一个经过patchwork处理的复合图形,而"gg"和"ggplot"表示它是基于ggplot2创建的图形对象。

  • 数据(data)
    • 一个包含2638行和2列的数据框架(data.frame)。用于生成小提琴图的数据集,其中每一行代表一个细胞。
    • 可以通过 View(p1[[1]][["data"]]) 查看, 基于表达量排序之后可以看到是在B细胞中高表达
  • 图层(layers)

    • 表示构成图形的图层。在ggplot2中,图层可以包括几何对象(如点、线、面等),统计变换,数据映射等。
  • 比例(scales)

    • 定义了图形的比例尺,例如x轴和y轴的取值范围和断点。
  • 导向(guides)

    • 表示图形的辅助元素,如图例、颜色条等。
  • 映射(mapping)

    • 定义了数据如何映射到图形的美学属性上,例如颜色、形状、大小等。
  • 主题(theme)

    • 定义了图形的外观和风格,如字体、背景色、轴线等。
  • 坐标(coordinates)

    • 表示图形使用的坐标系统,例如笛卡尔坐标、极坐标等。
  • 分面(facet)

    • 表示图形是否使用了分面,分面可以将数据的子集并排或堆叠显示。
  • 环境(environment)

    • 存储了图形的计算环境,可能包含用于计算图形的变量和函数。
  • 标签(labels)

    • 可能包含图形的标签信息,例如轴标题、图例标题等。

常用参数

除了导入结果数据的object以及需要绘制的features基因集,还可以 修改颜色和点的大小和透明度

  • cols :用于绘制不同类别的小提琴图的颜色。

  • pt.size :图中代表单个细胞数据点的大小。

  • alpha :数据点的透明度。

选择需要展示的细胞群组以及分组信息:







请到「今天看啥」查看全文