大家好,我是阿琛。前面,我们介绍了三大经典模型,分别是LASSO模型,随机森林模型和支持向量机模型的构建。然而,在高维度数据不断出现的现在,输入特征的数量呈指数形式迅速增长,形成了所谓的维数灾难。今天,我们将重点讲讲主成分分析,从原始数据集中找出一个更小的,但能最大程度保留原来大部分信息的变量集合。
所谓主成分分析,即Principle Component Analysis (PCA),其实就是寻找主成分的过程,且通常被认为是一种特殊的非监督学习算法,可以对复杂或多变的变量进行处理分析。一般而言,成分可以认为是特征的规范化线性组合。其中,第一主成分是能够最大程度解释数据中方差的特征线性组合,而第二主成分是在方向上与第一主成分垂直的条件下,最大程度解释数据中方差的另一种线性组合。其后的每一个主成分都遵循相同的原则。此外,主成分得分是对于每个主成分和每个观测变量计算而得到的。
下面,我们一起来看下如何进行主成分分析并建立模型。
rm(list = ls())
options(stringsAsFactors = F)
if(!require(psych))install.packages("psych")
if(!require(ggplot2))install.packages("ggplot2")
if(!require(ggpubr))install.packages("ggpubr")
if(!require(ROCR))install.packages("ROCR")
library(psych)
library(ggplot2)
library(ggpubr)
library(ROCR)
psych包常被用于进行主成分分析,包括:判断主成分的个数;提取主成分;获取主成分得分;以及列出主成分方程,解释主成分意义。rt "exp.txt", header=T, sep=" ", check.names=F, row.names = 1)
exp 1))
str(exp)
与之前的模型构建一样,首先使用read.table()函数读取表达数据,并通过结构函数str()检查数据。exp.scale exp)
exp.cor exp.scale)
cor.plot(exp.cor)
在分析之前,我们需要对数据进行标准化,使数据的均值为0,标准差为1。同时,完成标准化后,使用psych包提供的cor.plot()函数,将输入基因之间的相关性进行可视化展示。cli <- read.table("cliData.txt",header=T,sep=" ",check.names=F, row.names = 1)
head(cli)
str(cli)
pca exp.scale, rotate = "none")
通过psych包的principal()函数抽取主成分。首先,我们将rotate的参数设置为none,得到其中的各个成分。plot(pca$values, type = "b", ylab = "Eigenvalues", xlab = "Component")
接着,为了确定要保留的成分的数量,使用碎石图来评估能解释大部分数据方差的主成分,其中x轴表示主成分的数量,y轴表示相应的特征。在碎石图中,需要找出使变化率降低的那个点,也就是常说的“肘点”或者弯曲点。从图中可以看出,4个主成分是比较令人信服的。正交旋转又称为“方差最大法”,而旋转的意义是使变量在某个主成分上的载荷最大化,减少主成分之间的相关性,从而有助于对主成分的解释。pca.rotate exp.scale, nfactors = 4, rotate = "varimax")
pca.rotate
在输出的结果中,4个主成分的变量载荷分别标注为RC1到RC4,而SS loading中的值是每个主成分的特征值。同时,Cumulative Var结果表示这4个旋转后的主成分可以解释86%的全部方差。一般而言,我们选择的主成分至少应该解释大于70%的全部方差。可见,4个主成分已经可以用于后续的建模分析。pca.scores $scores)
head(pca.scores)
检查旋转和的主成分载荷,并将其作为每个患者的因子得分。而且,这些得分说明了每个患者与旋转后的主成分之间的相关程度。exp.pca <- cbind(cli, pca.scores)
lm_all ~ RC1+RC2+RC3+RC4, data = exp.pca)
summary(lm_all)
首先,将所有的因子作为输入,然后查看结果摘要。结果显示,整体模型在统计学上是具有显著性的,P值为0.0348。而且,其中RC1和RC4具有显著性。