在线性回归之玩转金郡和对率分类之玩转美亚中,斯蒂文帮助老板建的房价预测模型和婴儿产品推荐模型让老板很满意。最近老板接到借贷俱乐部 (lending club) 的一个项目,就是根据借款者的信息来判断这笔贷款是否有风险。
老板给了斯蒂文一份 csv 数据里面记录着 122,000 多条数据 (每条数据有 68 个特征),下图选了几条不完整的信息展示:
上图记录着一些重要特征如 loan_amount, term, int_rate 和 grade,分别指是贷款本金、年限、利率和评级。
经过一周的努力,斯蒂文用下面的方法一步步探索了借贷俱乐部的数据
首先预处理数据
再用 sklearn 自带树模型
然后自己编写决策树模型
最后修剪树而防止过拟合
进入王的机器公众号,在对话框回复 ML14 可下载代码 (ipython notebook 格式) 和数据 (csv格式)
第一章 - 数据预处理
1.1 引用包
1.2 研究数据
1.3 处理数据
第二章 - 决策树 (sklearn)
第三章 - 决策树 (MM)
3.1 子函数
3.2 构建决策树
3.3 可视化决策树
第三章 - 决策树 (pruning)
3.1 子函数
3.2 构建决策树
3.3 探索决策树
下面斯蒂文用 ipython notebook 带你们玩转借贷俱乐部。
原文链接:
http://mp.weixin.qq.com/s/NluKadt3gj5V2xBQUoSTxA