专栏名称: 经管之家

经管之家官微，每个经济、管理、金融、统计的学习和从业者，都应该有的帐号。经管之家（论坛），是国内成立十年的大型经济、金融、管理、计量统计社区，十年磨一剑，我们共同的家园！我们提供“经管爱问”答疑微服务，以及相关数据分析及金融培训课程。

【R语言数据挖掘】大数据时代的精准数据挖掘

经管之家 · 公众号 · 财经 · 2016-11-09 11:02

正文

数据挖掘领域通常面临着关联规则挖掘、聚类、分类这三大问题，而 R作为一个完备的工程计算包，对它们都提供了足够的支持。

作为数据挖掘领域从业人员，首先关心的是所使用工具的可伸缩性（scalability），即在面对大数据量场景时的计算能力。R就是适用于数据挖掘的一个拥有高性能计算能力的计算包：

1，能充分利用历史上积累下来的那些著名的数值计算包；
2，具有良好的可扩展性，方便开发人员并行化自己的算法。

简而言之，R就是小而强大，画图功能特别NB.

11.25-28四天，Gino老师带你通过25个案例掌握R数据挖掘实战

时间：2016年11月25-28日 (四天)

地点：北京市海淀区首都体育学院

安排：上午9:00-12:00；下午1:30-4:30；答疑4:30-5:00

费用：4500元 / 3600元 (仅限全日制本科生及硕士研究生优惠价)；食宿自理

优惠：现场班老学员9折优惠；

　　　同一单位3人以上同时报名9折优惠；

　　　折扣优惠不叠加。

老师简介

Gino老师，早年获得名校数学与应用数学专业学士和统计学专业硕士，有海外学习和工作的经历，近二十年来一直进行着数据分析的理论和实践，数学、统计和计算机功底强悍。

曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作，在实践中攻克统计建模和数据分析难题无数，数据处理与分析科学精准，在实际应用中取得良好的效果。

课程简介

课程内容涵盖了R语言和数据挖掘的精华，从大纲来看，无论是流行的数据挖掘方法，还是前沿的算法均有所涉及，课程中提供了大量丰富的案例，这些案例，集合了互联网、市场营销、金融保险等领域的数据挖掘实例，无疑对学习和工作有极大的参考和指导意义。

教学大纲

第一讲：R语言精要

本着循序渐进而又覆盖R语言重要而有用的基本内容原则，本讲从R语言入门开始，以前期的数据处理为核心，以实际案例为载体，内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题，详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包，为使用R语言进行数据挖掘打下扎实的工具基础。

主要案例：

案例1：如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数；

案例2：如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出；

案例3：如何使用R语言进行分层或者整群抽样构建训练集与测试集；

案例4：使用ggplot2画出各种复杂的图形。

第二讲：Logistic回归与商业大数据建模

Logistic回归是商业建模的常用重要数据挖掘方法，本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释，让学员彻底地掌握Logistic回归解决问题的R语言方法。

主要案例：

案例1：利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测；

案例2：利用Logistic回归帮助医生对病人选择最佳治疗方案；

案例3：利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素；

案例4：利用Logistic回归帮助寿险公司进行目标客户精准电话营销；

案例5：利用Logistic回归帮助商业银行完成对客户的信用评分；

案例6：利用Logistic回归帮助公司分析客户流失的原因并做好预测。

第三讲：关联规则和R语言实现

关联规则（著名的“啤酒和尿布”）是数据挖掘的基础和核心技术之一，本讲将着重围绕经典的Apriori算法和eclat算法，阐明关联规则的支持、置信和提升程度与控制，使用R语言快速完成关联规则分析。

主要案例：

案例1：使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案（即“购物篮”分析）；

案例2：泰坦尼克号乘客幸存的关联规则分析；

案例3：提高个人收入的关联分析。

第四讲：决策树（回归树）分析和R语言实现

决策树是数据挖掘的经典方法，其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法：CART和C4.5算法，使用rpart和J48函数进行R语言分析。

主要案例：

案例1：对汽车耗油量进行决策树分析并完成相关目标变量的预测；

案例2：使用决策树帮助电信局判断和预测客户办理宽带业务。

第五讲：机器集成学习的Bagging和AdaBoost算法

这两种方法将许多分类器的预测结果进行汇总分析，从而达到显著提升分类效果。本讲介绍这2种算法的思想，在R语言中构造训练集和测试集进一步进行分析。

主要案例：

案例1：用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测；

案例2：用R语言的Bagging和AdaBoost识别有毒蘑菇。

第六讲：R语言随机森林（RandomForest）算法

在机器学习中，随机森林是一个包含多个决策树的分类器，本讲讲清随机森林方法的原理，以致在实际中帮助学员判断适合进行随机森林分析的情况，最终熟练掌握R语言随机森林分析的方法。

主要案例：

案例1：对皮肤病进行随机森林的分类和预测；

案例2：对酒的品质和种类进行分类和评价。

第七讲：支持向量机和R语言的实现

本讲将分析支持向量机的结构风险最小原理、间隔和核函数，从而帮助学员深刻理解支持向量机的思想和算法，以及使用中注意的问题，从而帮助学员灵活地应用于各个领域。

主要案例：

案例1：对著名的鸢尾花数据进行支持向量机的分析；

案例2：使用支持向量机识别有毒蘑菇；

案例3：使用支持向量机进行股票指数预测。

第八讲：神经网络和R语言的实现

神经网络由大量的节点和输出函数构成逻辑策略，本讲介绍其原理，主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。

主要案例：

案例1：酒的品质和种类的神经网络的分析和预测；

案例2：公司财务预警建模。

【R语言数据挖掘】大数据时代的精准数据挖掘

正文

请到「今天看啥」查看全文