最近,Kaggle竞赛非常受欢迎,很多人都试图获得好成绩。但是,这些竞赛竞争十分激烈,获胜者通常不会透露其方法。通常情况下,获胜者只会写一个他们所做的事情的简单概述,而不会透露很多,所以用何种方法可用的提高模型精确度仍是一个谜。
这篇博文介绍了如何在Kaggle竞赛中提高模型精确度。我将分享一些如何获得较高分数且排名相对靠前(达到前10%)的步骤。这篇博文结构如下:
1. 数据探索(Data Exploratory)
1.1 数值数据(Numerical Data)
1.2 分类数据(Categorical Data)
2. 模型建立(Model Building)
2.1 线性回归(Linear Regression)
2.2 LASSO回归(Lasso Regression)
2.3岭回归(Ridge Regression)
2.3.1 数据转换(Data Transformation)
2.4 随机森林(Random Forest)
2.5 梯度推进器1(Gradient Boosting Machine)
2.6 神经网络(Neural Network)
2.7 叠加模型(Stacking Models)