专栏名称: 生信百科
依托高校科研平台,面向生物信息科研工作者。生物信息学习资料;常见数据分析技巧、流程;公共数据库分享;科研思路分享;
目录
相关文章推荐
医学界  ·  杜怡峰教授独家盘点 | ... ·  3 天前  
丁香园肿瘤时间  ·  吴小华教授:复旦经验赋能晚期卵巢癌手术评估, ... ·  3 天前  
医学影像沙龙  ·  如何区分肩周炎和肩袖损伤? ·  3 天前  
51好读  ›  专栏  ›  生信百科

R绘图之主成分分析3d

生信百科  · 公众号  · 医学  · 2017-09-04 10:23

主要观点总结

文章介绍了使用主成分分析(PCA)进行数据分析的过程。包括数据的来源、PCA分析的具体步骤和可视化方法。此外,文章还提到了如何处理异常数据,并分享了相关的R语言代码和包的使用。

关键观点总结

关键观点1: PCA分析的数据来源多样性

PCA分析可以用于不同类型的数据,如群体SNP数据、不同国家不同行业的经济总值、基因在多样本中的表达水平等。

关键观点2: PCA分析的结果解读

通过PCA分析,可以获得样本在实验组和对照组之间的直观分布情况,或者获得相似国家的聚类结果,或者是不同群体的相似程度等信息。

关键观点3: 异常数据对差异基因鉴定的影响

异常数据的存在会对差异基因的鉴定造成不利影响,因此在进行PCA分析之前,需要处理异常样品。

关键观点4: R语言在PCA分析中的应用

文章介绍了使用R语言进行PCA分析的具体步骤,包括建立模拟的芯片数据矩阵、进行PCA分析、可视化结果等。

关键观点5: 分享生信培训班报名信息和福利

文章还分享了生信培训班报名信息和相关福利,如生信学习资料和优惠报名等。


正文

我们先来看几张3d主成分分析图片:



主成分分析数据


数据来源多样化,可以是群体SNP数据、可以是不同国家不同行业经济总值、可以是基因在多样本中的表达水平。结果呢,我们可以直接获得样本在实验组和对照组之间的直观分布情况,或者获得相似国家的聚类结果,或者是不同群体的相似程度。以便于我们对数据整体进行把握,去除异常样品,否则异常数据的存在会对差异基因的鉴定造成不利影响。


软件和数据


我们先造点数据以供使用,首先用在R中建立一个模拟的芯片数据矩阵,该矩阵为10000行(10000个基因),60列(60个样本):


chip.dat


这样通过正态分布函数生成随机的数据;

我把60个样本分为两组,前30列和后30列各为一组,给它们定义不同的颜色:


colour


在100000个基因中,我们假定有100个基因在两个组间是有差异的,我们假设其中有500个在前一组是上调的,另500个在前一组中是下调的:


diff.ind



PCA分析


主成分分析

chip.dat.pca

看看这60个样本在前三个主成份的空间中的分布,可以用rgl包中的plot3d的函数:


设定颜色


colour


绘图(方法一)


library(rgl)
plot3d(chip.dat.pca$loadings[,1:3],col=colour,type="s",radius=0.025)

这样我们就可以得到了三维的样本分布图如下:

如果样本中有异常样本,
接下来模拟样本15为异常样本

chip.dat

绘图

chip.dat.pca


结果如下图所示



绘图(方法二)

使用pca3d软件包,这次我们直接用示例来绘图,先来看一下示例的数据格式

绘图命令

library(pca3d)
library(rgl)

data(metabo)
head(metabo)

pca 

绘图结果





关注生信培训班报名信息:


2017北京市计算中心9月培训班通知 (公众号报名优惠)


还有


福利来啦!生信学习资料大赠送!



欢迎分享!