专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  2024 年 11 ... ·  3 天前  
宝玉xp  ·  转发微博-20241115095418 ·  3 天前  
黄建同学  ·  了解一下什么是Agentic ... ·  1 周前  
宝玉xp  ·  //@i陆三金:Anthropic ... ·  1 周前  
51好读  ›  专栏  ›  机器学习研究会

【学习】 如何做出一个更好的Machine Learning预测模型

机器学习研究会  · 公众号  · AI  · 2017-01-25 21:30

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:Data Science with R&Python

初衷

这篇文章主要从工程角度来总结在实际运用机器学习进行预测时,我们可以用哪些tips来提高最终的预测效果,主要分为Data Cleaning,Features Engineering, Models Training三个部分,可以帮助大家在实际的工作中取得更好的预测效果或是在kaggle的比赛里取得更好的成绩和排位。


Data Cleaning

1. 移除多余的duplicate features(相同或极为相似的features)

2. 移除constant features(只有一个value的feature)

#R里面可以使用unique()函数判断,如果返回值为1,则意味着为constant features

3. 移除方差过小的features(方差过小意味着提供信息很有限)

#R中可以使用caret包里的nearZeroVar()函数
#Python里可以使用sklearn包里的VarianceThreshold()函数

4. 缺失值处理:将missing value重新编为一类。

#比如原本-1代表negative,1代表positive,那么missing value就可以全部标记为0
#对于多分类的features做法也类似二分类的做法
#对于numeric values,可以用很大或很小的值代表missing value比如-99999.

5. 填补缺失值

可以用mean,median或者most frequent value进行填补

#R用Hmisc包中的impute()函数
#Python用sklearn中的Imputer()函数

6. 高级的缺失值填补方法

利用其他column的features来填补这个column的缺失值(比如做回归)

#R里面可以用mice包,有很多方法可供选择

注意:不是任何时候填补缺失值都会对最后的模型预测效果带来正的效果,必须进行一定的检验。


原文链接:

https://zhuanlan.zhihu.com/p/25013834

“完整内容”请点击【阅读原文】
↓↓↓