李航老师的《统计学习方法》是了解机器学习最好的教材之一,该书从 2005 年开始写作,一直到 2012 年完成,今年 5 月份又上线了第二版。最新版本包含众多主要的监督和无监督学习算法与模型,可以说是机器学习的入门宝典。许多机器学习培训班、互联网企业的面试、笔试题目都参考这本书。为了让大家更加系统、高效地学习这本书,作者李航博士推荐了清华大学深圳研究院袁春教授制作的相关课件,学习者可以免费下载。
《统计学习方法》(第 2 版)全面系统地介绍了统计学习的主要方法,分为监督学习和无监督学习两篇。第一篇介绍了感知机、朴素贝叶斯法、决策树、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场等算法,都是非常经典的监督学习方法。第二篇主要讨论了聚类方法、奇异值分解、主成分分析、潜在语义分析、马尔可夫链蒙特卡罗法和潜在狄利克雷分配等算法,都是非常经典的无监督学习方法。
作为最好的机器学习教材之一,《统计学习方法》成为国内很多高校机器学习相关专业的理想教材,清华大学便是其中之一。袁春教授在清华大学主要讲授「计算机视觉」、「大数据机器学习」等课程,《统计学习方法》被选为「大数据机器学习」课程的主要教材,课件也围绕本书展开。
课件内容总览
课件下载链接: pan.baidu.com/s/1HUw0MeBD…
第一章的课件主要对机器学习的概念、学术资源、发展历程、期刊会议等基础知识进行了总体概括,并指出了机器学习和统计学习之间的关联与差异,介绍了统计学习道路上的一些基础知识,包括方法分类、模型、策略、算法等。
除此之外,第 2 章直到第 13 章以前的内容,与上一版内容基本一致,此处仅介绍课件标题,内容详情可通过链接下载查看。
从第 13 章开始,就是《统计学习方法》第 2 版中新增的无监督学习部分,读过的人都说好。
第 13 章是无监督学习概论,介绍了无监督学习的基本原理和基本问题,以及无监督学习的三要素和学习方法,有着提纲契领的作用,一些重点内容在后面还会有单独的课件讲述。
第 14 章是聚类方法,讲了「什么是聚类」、「相似度或距离」、「类或簇」、「类与类之间的距离」、「层次聚类」等等与「类」各种相关的知识。
第 15 章讲的是奇异值分解,从定义开始,大概花了 20 页来讲解奇异值分解基本定理,之后还有奇异值分解的计算、矩阵的最优近似、矩阵的外积展开式等等。
第 16 章是主成分分析,是一种常用的无监督学习方法,也是一种数学上用来的降维的常用方法,主要用于发现数据中的基本结构,即数据中变量之间的关系。
第 17 章是潜在语义分析,这种分析方法主要通过矩阵分解,发现文本与单词之间的基于话题的语义关系。该方法常用于文本的话题分析。这一章课件对单词向量空间、话题向量空间以及发现文本与单词之间的基于话题的语义关系等概念和方法进行了详细的介绍。
第 18 章介绍了概率潜在语义分析,这是一种利用概率生成模 型对文本集合进行话题分析的无监督学习方法。课件重点讨论了生成模型、共现模型、模型参数、模型的几何解释、概率潜在语义分析与潜在语义分析的关系等内容。
第 19 章是马尔可夫链蒙特卡罗法,按照蒙特卡罗法→马尔可夫链→马尔可夫链蒙特卡罗法的顺序循序渐进地讲解了马尔可夫链蒙特卡罗法,此外还包括 Metropolis-Hastings 算法(最基本的马尔可夫链蒙特卡罗法)、吉布斯采样(更简单、使用更广泛的马尔可夫链蒙特卡罗法)等方面的详细内容。