专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
机器之心  ·  Cursor创始团队最新访谈:如果Githu ... ·  昨天  
机器之心  ·  奥特曼赢家通吃!OpenAI再揽66亿美元新 ... ·  5 天前  
爱可可-爱生活  ·  【Chital:macOS上的聊天应用,专为 ... ·  1 周前  
51好读  ›  专栏  ›  机器学习研究会

【学习】集成树之玩转借贷俱乐部

机器学习研究会  · 公众号  · AI  · 2017-04-22 22:49

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:王的机器

斯蒂文用决策树预测了借贷俱乐部里面的贷款的良恶性,老板比较满意,但是还想进一步提高预测准确率。斯蒂文第一反应是用集成树 (ensemble trees),比如随机森林提升树,本贴分三个步骤:


  • 预处理数据

  • 先用 sklearn 自带的梯度提升树 (gradient boosted tree) 和随机森林 (random forest) 模型

  • 然后自己编写逐步提升树桩 (adaBoost stump) 模型


预处理数据步骤和在上贴【学习】决策树之玩转借贷俱乐部里面做的一模一样,包括三个子步骤:


  • 平衡样本 (sample balancing)

  • 特征子集 (feature subset)

  • 独热编码 (one-hot encoding)


因此本帖不会重复上贴的预处理数据的子步骤,除非有新的内容有所变动或需要强调


进入王的机器公众号,在对话框回复 ML15 可下载代码 (ipython notebook 和 HTML 格式) 和数据 (csv格式)


目录


第一章 - 集成树 (sklearn)


    1.1 预处理数据

    1.2 提升树和随机森林

    1.3 树的棵数


第二章 - 提升树 (MM)


    2.1 子函数

    2.2 权重树

    2.3 逐步提升树桩


下面斯蒂文用 ipython notebook 带你们继续玩转借贷俱乐部。


原文链接:

http://mp.weixin.qq.com/s/OduSjP_iDHh4k7MogUP9Hg

“完整内容”请点击【阅读原文】
↓↓↓