上期介绍了常用到的分类预测模型,包括混合协变量分类模型(Compound
Covariate Predictor)、对角线线性判别分类模型(Diagonal Linear Discriminant
Analysis)、最邻分类模型(Nearest Neighbor Predictor)、最邻质心分类模型(Nearest Centroid
Predictor)和支持向量机分类模型(Support Vector Machine Predictor)。
这期再为大家介绍其他的6种经典模型。
1. 二叉树预测(Binary tree prediction)
二叉树预测是另一种能够用于多组分类的算法。先前介绍的混合协变量分类、对角线线性判别分类、最邻分类、最邻质心分类和支持向量机分类是二叉树预测的基础算法。
二叉树预测与先前标准的分类模型的主要区别在于分析三组以上分类的条件下有所不同。二叉树方法并不试图一步就能完成预测分类,而是在树的每个节点上把样本分为两个子集。
子集可以包含一个或多组样本分类。
各种分类算法可被用于构建这两个子集的分类模型。在每个节点分割样本的要求是分割后的子集能拥有最小的交叉验证错判率。所有可能的分割方式都被逐一测试,最好的那种(即最小错判率)被选中作为二叉树的节点。
如果该节点的最小错判数仍大于指定的阈值,该分割则无效。此时,分类模型就不再分组该类样本。过程中,产生的两类样本不断重复逐一测试,直到每个子集只含一个样本或者再分类时的交叉验证错判率大于阈值。
目前还需要更多的研究来比较二叉树预测相对于其它应用于基因芯片数据的“一步式”的预测算法(one-step prediction algorithms)的优缺点。
2.PAM预测(Prediction Analysis for Microarrays)
PAM是除了上述方法之外的另一种分类预测方法。该方法使用了由Tibshirani等人开发的收缩质心算法(PNAS 99:6567-6572, 2002)。
该方法与先前介绍的最近邻质心法相似,不同的是每组的质心是通过收缩互相每组的每个基因相对于总体均值来计算的。收缩程度由名为delta的“调节参数”决定。
收缩发生时,由于某些基因在不同组间的收缩值均值相同,而这些基因不会对分类有所影响。
设置较大的delta,会产生较少的具有不同的收缩均值的基因,因此就会基于这些少量的基因来构建分类模型,即delta的值决定构建模型的基因数。
算法提供了在所有delta的取值中k-折交叉验证预测误差的估计,其中k为最小组别的大小。
最终给出对应于最小交叉验证预测误差的delta值和用于构建模型的基因。然而,最优化delta的选择过程其实是分类算法的步骤之一,应该包括在交叉验证中,所以这种在不同delta取值范围上选择交叉验证预测误差最小的delta值在某种程度上可能对于应用其它新数据的分类存在有偏估计。
但如果在delta和交叉验证误差率两者的相关图中,曲线比较平缓,那么偏差将不大,可以忽略偏差。
随机森林是Leo Breiman开发的一种预测分类的方法(Breiman L,Random forest,Machine Learning,45(1):5-32,2001)。
它基于决策树集合的多数投票来进行预测。单个决策树往往是不稳定的,不能提供稳定的预测。而通过许多树的预测,随机森林方法能更加稳定,且与其他分类器相比具有更好的性能。
然而,随机森林模型过程是很难解释清楚的黑箱,因为涉及到大量的决策树,每个都使用不同的基因集。随机森林的调整参数是树的数量和用于分裂的随机采样的基因数量。
4.最高分配对(Top Scoring Pair Class Prediction)
“最高分配对”预测由Geman及其同事开发的方法,用来寻找能最好的进行组别分组的配对基因[1,2]。
Freund和Schapire(1996)开发的Adaboost可应用于二分类或多分类的应用场景。Adaboost算法其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把是些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
我们在这里使用的弱分类器是分类树。 Breiman(NIPS Workshop,1996)将Adaboost称为“世界上最好的现成分类器”[3,4]。
6.Lasso逻辑回归(Lasso Logistic Regression)
Friedman等人(2008)使用基因表达值和选择临床协变量来预测样本的二分类情况。该算法使用L1惩罚最大似然法。分类模型可用于对新样本的预测。
如果选择了临床协变量,将比较基因表达联合临床协变量的模型与仅含临床协变量的模型,进行预测效果的显着性检验[5,6]。
参考文献:
1.Geman
D, d’Avignon C, Naiman DQ and Winslow RL. Classifying gene expression
profiles from pairwise mRNA comparisons. Statistical Applications in
Genetics and Molecular Biology 3(1) 2004.
2.Tan AC, Naiman DQ, Xu L,
Winslow RL and Geman D. Simple decision rules for classifying human
cancers from gene expression profiles. Bioinformatics 21(20):3896-3904,
2005.
3.Freund, Y. and Schapire, R.E. (1996): "Experiments with a New
boosting Algorithm". In Proceedings of the Thirteenth Internal
Conference on Machine Learning, pp. 148-156.
4.Breiman, L. (1998): "Arcing classifiers". The Annals of Statistics, Vol 26, 3, pp. 801-849.
5.Friedman, J., Hastie, T. and Tibshirani, R. (2008) Regularization Paths for Generalized
6.Linear Models via Coordinate Descent, Journal of Statistical Software, Vol. 33, Issue 1, Feb 2010
相关推文:
基因芯片小知识(一)
基因芯片小知识(二) 数据分析
基因芯片小知识(三)
基因芯片小知识(四)
基因芯片小知识(五)
赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。
科研路,不孤单!^ ^
Freescience医学科研联盟全国火热招募ing
50家高校及医院的小伙伴已经加入啦,点这里
FS科研软件库,集合60+医学科研必备神器,现在统统打包分享,点这里
如何自动获取文献进展和内容速读