专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【干货】分分钟带你杀入Kaggle Top 1%

机器学习研究会 · 公众号 · AI · 2017-06-25 21:54

正文

点击上方“机器学习研究会”可以订阅哦

摘要

转自：吴晓晖

不知道你有没有这样的感受，在刚刚入门机器学习的时候，我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手，复现别人的结果，但总觉得过于简单，给人的感觉太不真实。因为这些数据太“完美”了（干净的输入，均衡的类别，分布基本一致的测试集，还有大量现成的参考模型），要成为真正的数据科学家，光在这些数据集上跑模型却是远远不够的。而现实中你几乎不可能遇到这样的数据（现实数据往往有着残缺的输入，类别严重不均衡，分布不一致甚至随时变动的测试集，几乎没有可以参考的论文），这往往让刚进入工作的同学手忙脚乱，无所适从。

Kaggle则提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中论坛上与其他参赛者的互动，能不断地获得启发，受益良多。即使对于一些学有所成的高手乃至大牛，参加Kaggle也常常会获得很多启发，与来着世界各地的队伍进行厮杀的刺激更让人欲罢不能。更重要的是，Kaggle是业界普遍承认的竞赛平台，能从Kaggle上的一些高质量竞赛获取好名次，是对自己实力极好的证明，还能给自己的履历添上光辉的一笔。如果能获得金牌，杀入奖金池，那更是名利兼收，再好不过。

Kaggle适用于以下人群：

我是小白，但是对数据科学充满求知欲。
我想要历练自己的数据挖掘和机器学习技能，成为一名真正的数据科(lao)学(si)家(ji)。
我想赢取奖金，成为人生赢家。

0 简介

Kaggle创办于2010年，目前已经被Google收购，是全球顶级的数据科学竞赛平台，在数据科学领域中享有盛名。笔者参加了由Quora举办的Quora Question Pairs比赛，并且获得了前1%的成绩(3307支队伍)。这是笔者Kaggle首战，所以写下此文来系统化地梳理比赛的思路，并且和大家分享我们参赛的一些心得

原文链接：

https://zhuanlan.zhihu.com/p/27424282

“完整内容”请点击【阅读原文】

↓↓↓