专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  回复@oO支离破碎Oo:编程用Cursor、 ... ·  4 天前  
爱可可-爱生活  ·  【ErikKaum ... ·  4 天前  
黄建同学  ·  一本在线的免费机器学习电子书↓ ... ·  6 天前  
爱可可-爱生活  ·  【PLAID:蛋白质设计辅助工具,通过人工智 ... ·  6 天前  
爱可可-爱生活  ·  【ComfyUI-OmniGen:集成了 ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】决策树之玩转借贷俱乐部

机器学习研究会  · 公众号  · AI  · 2017-04-20 23:17

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:王的机器

线性回归之玩转金郡对率分类之玩转美亚中,斯蒂文帮助老板建的房价预测模型和婴儿产品推荐模型让老板很满意。最近老板接到借贷俱乐部 (lending club) 的一个项目,就是根据借款者的信息来判断这笔贷款是否有风险。


老板给了斯蒂文一份 csv 数据里面记录着 122,000 多条数据 (每条数据有 68 个特征),下图选了几条不完整的信息展示:



上图记录着一些重要特征如 loan_amounttermint_rate 和 grade,分别指是贷款本金年限利率评级


经过一周的努力,斯蒂文用下面的方法一步步探索了借贷俱乐部的数据


  • 首先预处理数据

  • 再用 sklearn 自带树模型

  • 然后自己编写决策树模型

  • 最后修剪树而防止过拟合


进入王的机器公众号,在对话框回复 ML14 可下载代码 (ipython notebook 格式) 和数据 (csv格式)


目录

第一章 - 数据预处理


    1.1 引用包

    1.2 研究数据

    1.3 处理数据


第二章 - 决策树 (sklearn)


第三章 - 决策树 (MM)


    3.1 子函数

    3.2 构建决策树

    3.3 可视化决策树


第三章 - 决策树 (pruning)


    3.1 子函数

    3.2 构建决策树

    3.3 探索决策树


下面斯蒂文用 ipython notebook 带你们玩转借贷俱乐部。


原文链接:

http://mp.weixin.qq.com/s/NluKadt3gj5V2xBQUoSTxA

“完整内容”请点击【阅读原文】
↓↓↓