作者 CDA 数据分析师
“虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看 svm 的数学证明,EM算法,凸优化… 感觉知识跳跃比较大, 是我微积分学的不好还是中间有什么好的教材补充一下,数据挖掘系统的学习过程是怎么样的,应该看那些书(中文最好)?“
——以上是一位咨询的学员像我们提出的疑问。和这位同学相似,很多同学在入门数据挖掘领域遭到了极大的阻力,也丧失了继续学习的兴趣。那么,正确入门数据挖掘领域的姿势是什么呢?
这是一个不太好回答的问题,管中窥豹,建议大家看一下以下的一些见解。
一、 在学习数据挖掘之前你需要明了的几点:
1. 数据挖掘目前在中国的尚未流行开,犹如屠龙之技;
2. 据挖掘本身融合了统计学、数据库、机器学习、模式识别、知识发现等学科,并不是新的技术。
3. 数据挖掘之所以能够应用不是因为算法,算法是以前就有的。数据挖掘应用的原因是大数据和云计算。比如阿法狗的后台有上千台计算机同时运行神经网络算法;
4. 数据初期的准备工作,也称Data Warehousing。通常占整个数据挖掘项目工作量的70%左右。在前期你需要做大量的数据清洗和字段扩充的工作。数据挖掘和报告展现只占30%左右;
5. 数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)
二、目前国内的数据挖掘人员工作领域大致可分为三类。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告;
2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析;
3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。
三、你自己的定位与学习。
基于以上一点的介绍,你大概可以明确你需要努力的方向。如果你不是致力于科研方向,那么你需要掌握如下的技能:
1. 需要理解主流机器学习算法的原理和应用。按照需要解决的问题,主要分为三大类,见下图:
2. 需要熟悉至少一门编程语言。如R,Python,SPSS Modeler,SAS,WEKA等。关于软件,有三个原则:只要能达到目标的软件就是好软件;你研究的领域啥软件好用就用啥软件;不要妄想用一个软件解决所有问题。
3. 需要理解数据库基本原理,能够熟练操作至少一种数据库,如Mysql,OracelDB2等。
4. 熟悉数据挖掘常见的运用场景。如客户生命周期管理、客户画像和客户分群、客户价值预测模型构建、推荐系统设计等。这些需要依托于不同行业。下图位CRM管理运用场景示例:
5. 经典图书推荐:《数据挖掘:概念与技术》、《数据挖掘导论》、《机器学习实战》、《数据库系统概论》、《R语言实战》
当然,如果你能够接触到真实的数据挖掘项目和实战,你的提升将会非常快。CDA数据分析研究院开设的R语言数据挖掘课程,将世界客户关系管理方面的领导者美库尔公司(Merkle Inc)在专业管理咨询方面的几十年的经验积累与CDA数据分析研究院的教学理念与方法相结合,归纳了在商业智能系统设计、客户画像、精准营销、生命周期价值管理等主题的课程,结合R语言进行项目实操。感兴趣的小伙伴们快来学习吧!
北京&远程:6月03-04,10-11,17-18日(6天)
授课安排:现场班5900元,远程班4400元
(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式
(2) 授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑)
(3) 学习期限:现场与视频结合,长期学习加练习答疑。
1. 在线填写报名信息
官网端:
微信端:
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
第一阶段:[6.03]数据挖掘前沿与R语言
1.商业数据分析的本质
2.商业数据分析的阶段与行业运用
3.商业数据挖掘通用方法论
4.R语言基础
5.数据清洗方法
6.错误值、缺失值及噪声值处理
7.变量压缩
a.案例:贷款数据的数据清洗
第二阶段:[6.04]回归建模分析方法
1.线性回归建模与检验
2.回归模型的模型评估
3.正则化方法
4.逻辑回归介绍
5.分类模型的模型评估
6.极大似然法估计
7.模型评估方法
a.案例:信用卡客户价值预测模型
b.案例:汽车贷款初始评分模型
第三阶段:[6.10]决策树与神经网络建模
1.使用决策树进行流失预警模型
2.决策树建模方法
3.决策树模型修剪
4.使用神经网络进行营销响应预测
5.感知器与BP神经网络
6.径向基神经网络
7.深度学习及常用框架(Caffe、Tensorflow)
a.案例:电子产品客户购买决策模型
b.案例:信贷产品行为评分模型
第四阶段:[6.11]分类器与组合模型
1.KNN最近领域建模
2.贝叶斯网络
3.高级分类器:支持向量机( SVM)
4.封装与提升
5.随机森林与梯度树
a.案例:婚恋网站客户成功约会预测
b.案例:网站虚假注册客户识别
c.案例:客户精准营销案例
第五阶段:[6.17]客户与市场分析方法
1.理解客户画像和客户分群
2.客户特征提取与FRM方法
3.层次聚类(Ward、Birch)
4.基于划分的聚类(K-means)
5.谱聚类方法
6.基于密度的聚类(DBSCAN)
a.案例:某人寿保险公司客户分群
b.案例:邮轮公司客户分群
第六阶段:[6.18]推荐算法提升客户价值
1.Apriori算法、FP-growth算法
2.顺贯模型
3.推荐系统设计
4.模型生命周期
5.数据挖掘体系建设
a.案例:电商交叉销售案例
b.案例:金融机构交叉销售案例
常国珍
CDA数据分析师讲师/北京大学商学博士。曾就职于亚信科技商业运营咨询部、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
瞿辉
美库尔公司分析经理/中国科学技术大学统计学硕士毕业。多年数据分析和挖掘的工作经历,精通SAS和R,对各种机器学习算法和统计模型都有深入研究,负责过保险、医药、零售以及电商等多个行业的数据分析项目,在客户画像、用户分群、精确营销、销售预测、营销组合优化等领域有丰富经验。
1.全日制学生及CDA LEVEL Ⅰ老学员8折优惠;
2.三人及以上报名9折优惠,五人及以上8折优惠;
3.CDA LEVEL Ⅰ等级资格证书持有者立省1000元;
4.同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。
电话:010-68411404
手机:18010006628(陈老师)QQ:3140805120
18811331062(田老师)QQ:2881989710
邮箱:[email protected]
[email protected]
—— Join Learn!
推荐阅读
2017年大数据和数据科学的六大发展趋势
你每天要花多少时间在手机上?
初级数据科学家求职时的 3 大必备能力
不可错过的优质深度学习课程
职场 | 数据库面试常问的一些基本概念
听说你最擅长“拖”,你“拖”得过Excel吗?
数据科学优质课程推荐#2:统计入门课程篇
歌手外科和猴姑,大数据告诉你白百何出轨后谁最惨
想学习数据科学?我们整理了一份优质编程入门课程清单
数据科学家在美国仍然是最热门工作的3大原因
一个优秀数据分析师的准则
Python 实现一个火车票查询的工具
干货 | 携程实时用户行为系统实践
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是...
那些年,写 Python 犯过的错误
我用6.5万条公开数据分析了一下人民眼中的人民的名义
如何获得你的第一份数据科学领域的工作?
北京空气质量数据可视化
几个提高工作效率的Python内置小工具
Python 自然语言处理《釜山行》人物关系