以下是我学习了modeler,并参照了《基于Clementine的数据挖掘》,将书上的一个小例子展现给大家
1.案例数据为一份关于药物研究的数据。患有同种疾病的不同病人,服用五种药物中的一种(drugA、drugB...)后,都取得了同样的治疗效果;现在需要利用数据挖掘技术发现以往药物处方适用的规律,对于不同特征(血压、胆固醇、钠钾含量等)的病人给予更适合哪种药物的建议。
2.观察各个变量的数据特征:可以看到MODELER对此计算除了最小值、最大值、均值、标准差、偏态系数等基本描述统计,同时还输出了数值型变量的直方图以及分类型变量的柱形图。
3.通过散点图反应服用不同药物的病人钠钾含量指标; 图形显示服用drugY的病人,其唾液中的K含量明显低于其他类病人,由此可见,单纯K含量较低的病人选用drugY比较理想。
4.通过直方图反映钠钾浓度指标(Na/K)与服用对应药物的关系。图形显示,对于Na/K比值处在高水平的病人,drugY是理想的选择。
5.通过网状图反映不同血压特征病人的药物选择。图中线条粗细反映病人的BP与选用drug的情况。可以看到,无论血压状况如何,都可以服用drugY。
6.通过建立模型C5.0,从年龄、性别、血压、钠钾浓度指标的综合角度分析选择不同药物的依据。根据图形显示,可以看出:Na/K比值是选择药物的首要考虑因素,其次是血压、年龄、和胆固醇水平。其中性别对药物选择没有影响。
数据分析师一条比较艰难的道路,过程充满了努力与汗水,需要我们有坚韧的毅力与丰厚的热情去投入,只有坚持到最后,会有更好的风景,只有汗水是不会骗人的。数据分析是技术,也是一门艺术。
CDA数据分析就业班是为解决当下企业招人难、学员就业难的问题所研发的精品课程。课程以数据分析理论与实践案例结合的方式讲授,内容覆盖了国内企业招聘数据分析师岗位所需的技能,学员经过三个月系统全面的脱产学习,达到企业用人标准,快速在大数据时代找准工作定位,抓住大时代的大机遇!
北京地区:3月26日数据分析就业现场班(点击阅读原文报名)
3月5日数据分析就业现场班
上海地区:4月16日数据分析就业现场班
合肥地区:3月28日数据分析就业现场班
贵阳地区:3月12日数据分析就业现场班
南京地区:3月5日数据分析就业直播班
成都地区:3月5日数据分析就业直播班
长沙地区:3月5号数据分析就业直播班
洛阳地区:3月5号数据分析就业直播班
快点加入我们,一起玩转数据分析吧!
电话:010-53605625
手机:18810531180(曹老师)
QQ:2881989706
邮箱:[email protected]