专栏名称: 凹凸数据
一个不务正业的数据🐶!爬虫、数据分析、可视化、方法论,一条龙服务!业务范围:Python、SQL、Excel、Tableau······
目录
相关文章推荐
51好读  ›  专栏  ›  凹凸数据

决策树可视化,被惊艳到了!

凹凸数据  · 公众号  ·  · 2021-12-09 20:30

正文

请到「今天看啥」查看全文


目前无论是机器学习竞赛还是工业界,最流行、应用最广泛的xgboost其实是优化后的GBDT(LightGBM里面的boosting比较经典稳定的也是GBDT哦!),而GBDT的基分类器最常用的就是CART决策树!掌握决策树,对理解之后的GBDT、LightGBM都有大有裨益。

可视化的方式理解决策树,对深刻理解这个模型很有帮助。大家最熟知的决策树可视化实现方式是下面这种:

dot_data = export_graphviz(
    clf,
    out_file=None,
    feature_names=df.columns[:-1],
    class_names=["good""bad"],
    filled=True,
    rounded=True,
    special_characters=True,
)
graph2 = pydotplus.graph_from_dot_data(dot_data)
graph2.write_png("./pics/tree.png")

这种方法很好地展示了树的结构,但并不完美:
1、基尼系数会占用图中的空间,并且不利于解释
2、每个节点中各目标类别的样本数不够直观今天向大家介绍一个更为惊艳的决策树可视化库—— dtreeviz ,我们直接看几张效果图 dtreeviz 有以下特色:

  • 利用有颜色的目标类别图例
  • 叶子大小与该叶子中的样本数成正比
  • 将≥和
  • 决策节点利用堆叠直方图展示特征分布,每个目标类别都会用不同的颜色显示
  • 在每个节点中各目标类别的样本数都用直方图的形式,这样可以提供更多信息

dtreeviz 同样依赖GraphViz,需要先安装配置好它。GraphViz 搞定后,安装dtreeviz即可

pip install dtreeviz             # install dtreeviz for sklearn
pip install dtreeviz[xgboost]    # install XGBoost related dependency
pip install dtreeviz[pyspark]    # install pyspark related dependency
pip install dtreeviz[lightgbm]   # install LightGBM related dependency

使用也很简单

一天介绍一本书

统计分析(以R语言为工具) :本书围绕经典的统计方法与 R 语言工具,从基本的统计描述分析方法出发,讲解了参数估计与假设检验、线性回归、逻辑回归、降维分析方法,每一章重点介绍一种经典方法或统计模型,对其基本定义、模型形式、统计方法的推导与解读等都给出了细致的讲解。


点击这里,阅读更多数据文章!







请到「今天看啥」查看全文