文章介绍了使用主成分分析(PCA)进行数据分析的过程。包括数据的来源、PCA分析的具体步骤和可视化方法。此外,文章还提到了如何处理异常数据,并分享了相关的R语言代码和包的使用。
PCA分析可以用于不同类型的数据,如群体SNP数据、不同国家不同行业的经济总值、基因在多样本中的表达水平等。
通过PCA分析,可以获得样本在实验组和对照组之间的直观分布情况,或者获得相似国家的聚类结果,或者是不同群体的相似程度等信息。
文章介绍了使用R语言进行PCA分析的具体步骤,包括建立模拟的芯片数据矩阵、进行PCA分析、可视化结果等。
文章还分享了生信培训班报名信息和相关福利,如生信学习资料和优惠报名等。
我们先来看几张3d主成分分析图片:
主成分分析数据
数据来源多样化,可以是群体SNP数据、可以是不同国家不同行业经济总值、可以是基因在多样本中的表达水平。结果呢,我们可以直接获得样本在实验组和对照组之间的直观分布情况,或者获得相似国家的聚类结果,或者是不同群体的相似程度。以便于我们对数据整体进行把握,去除异常样品,否则异常数据的存在会对差异基因的鉴定造成不利影响。
软件和数据
我们先造点数据以供使用,首先用在R中建立一个模拟的芯片数据矩阵,该矩阵为10000行(10000个基因),60列(60个样本):
chip.dat
这样通过正态分布函数生成随机的数据;
我把60个样本分为两组,前30列和后30列各为一组,给它们定义不同的颜色:
colour
在100000个基因中,我们假定有100个基因在两个组间是有差异的,我们假设其中有500个在前一组是上调的,另500个在前一组中是下调的:
diff.ind
PCA分析
主成分分析
chip.dat.pca
看看这60个样本在前三个主成份的空间中的分布,可以用rgl包中的plot3d的函数:
设定颜色
colour
绘图(方法一)
library(rgl)
plot3d(chip.dat.pca$loadings[,1:3],col=colour,type="s",radius=0.025)
这样我们就可以得到了三维的样本分布图如下:
如果样本中有异常样本,
接下来模拟样本15为异常样本
chip.dat
绘图
chip.dat.pca
结果如下图所示
绘图(方法二)
使用pca3d软件包,这次我们直接用示例来绘图,先来看一下示例的数据格式
绘图命令
library(pca3d)
library(rgl)
data(metabo)
head(metabo)
pca
绘图结果
关注生信培训班报名信息:
2017北京市计算中心9月培训班通知 (公众号报名优惠)
还有
福利来啦!生信学习资料大赠送!
欢迎分享!