专栏名称: 经管之家
经管之家官微,每个经济、管理、金融、统计的学习和从业者,都应该有的帐号。经管之家(论坛),是国内成立十年的大型经济、金融、管理、计量统计社区,十年磨一剑,我们共同的家园!我们提供“经管爱问”答疑微服务,以及相关数据分析及金融培训课程。
目录
相关文章推荐
央视财经  ·  刚刚,突破130亿!再刷纪录! ·  昨天  
经济观察报  ·  A股开盘:三大指数高开,沪指涨0.18%,液 ... ·  2 天前  
e公司官微  ·  华为,重磅发布!百万豪车,黑科技现身! ·  3 天前  
51好读  ›  专栏  ›  经管之家

机器学习经典书籍28本,初、中、高级进阶全攻略!

经管之家  · 公众号  · 财经  · 2016-12-22 09:15

正文

来源:中国统计网

作者:Python中文社区(中国统计网特邀认证作者)



入门书单


1.《数学之美》


作者吴军大家都很熟悉。以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用。


2.《Programming Collective Intelligence》(《集体智慧编程》)


这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门 书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。

还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。


3.《Algorithms of the Intelligent Web》(《智能web算法》)


作者Haralambos Marmanis、Dmitry Babenko。这本书中的公式比《集体智慧编程》要略多一点,里面的例子多是互联网上的应用,看名字就知道。不足的地方在于里面的配套代码是 BeanShell而不是python或其他。总起来说,这本书还是适合初学者,与上一本一样需要快速读完,如果读完上一本的话,这一本可以不必细看代 码,了解算法主要思想就行了。

4.《统计学习方法》

作者李航,是国内机器学习领域的几个大家之一,曾在MSRA任高级研究员,现在华为诺亚方舟实验室。书中写了十个算法,每个算法的介绍都很干脆,直接上公式,是彻头彻尾的“干货书”。每章末尾的参考文献也方便了想深入理解算法的童鞋直接查到经典论文;本书可以与上面两本书互为辅助阅读。

5.《Machine Learning》(《机器学习》)

作 者Tom Mitchell是CMU的大师,有机器学习和半监督学习的网络课程视频。这本书是领域内翻译的较好的书籍,讲述的算法也比《统计学习方法》的范围要大很多。据评论这本书主要在于启发,讲述公式为什么成立而不是推导;不足的地方在于出版年限较早,时效性不如PRML。但有些基础的经典还是不会过时的,所以这本书现在几乎是机器学习的必读书目。


6.《Mining of Massive Datasets》(《大数据》)

作 者Anand Rajaraman、Jeffrey David Ullman,Anand是Stanford的PhD。这本书介绍了很多算法,也介绍了这些算法在数据规模比较大的时候的变形。但是限于篇幅,每种算法都 没有展开讲的感觉,如果想深入了解需要查其他的资料,不过这样的话对算法进行了解也足够了。还有一点不足的地方就是本书原文和翻译都有许多错误,勘误表比较长,读者要用心了。

7.《Data Mining: Practical Machine Learning Tools and Techniques》(《数据挖掘:实用机器学习技术》)

作者Ian H. Witten 、Eibe Frank是weka的作者、新西兰怀卡托大学教授。他们的《ManagingGigabytes》[4]也是信息检索方面的经典书籍。这本书最大的特点 是对weka的使用进行了介绍,但是其理论部分太单薄,作为入门书籍还可,但是,经典的入门书籍如《集体智慧编程》、《智能web算法》已经很经典,学习的话不宜读太多的入门书籍,建议只看一些上述两本书没讲到的算法。

8.《机器学习及其应用》

周志华、杨强主编。来源于“机器学习及其应用研讨会”的文集。该研讨会由复旦大学智能信息处理实验室发起,目 前已举办了十届,国内的大牛如李航、项亮、王海峰、刘铁岩、余凯等都曾在该会议上做过讲座。这本书讲了很多机器学习前沿的具体的应用,需要有基础的才能看懂。如果想了解机器学习研究趋势的可以浏览一下这本书。关注领域内的学术会议是发现研究趋势的方法嘛。


9.《Managing Gigabytes》(深入搜索引擎)


信息检索不错的书。

10.《Modern Information Retrieval》


Ricardo Baeza-Yates et al. 1999。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。

11.《推荐系统实践》

项亮,不错的入门读物



深入



1.《Pattern Classification》(《模式分类》第二版)


作者Richard O. Duda[5]、Peter E. Hart、David。模式识别的奠基之作,但对最近呈主导地位的较好的方法SVM、Boosting方法没有介绍,被评“挂一漏万之嫌”。


2.《Pattern Recognition And Machine Learning》


作 者Christopher M. Bishop[6];简称PRML,侧重于概率模型,是贝叶斯方法的扛鼎之作,据评“具有强烈的工程气息,可以配合stanford 大学 Andrew Ng 教授的 Machine Learning 视频教程一起来学,效果翻倍。”


3.《The Elements of Statistical Learning : Data Mining, Inference, andPrediction》,(《统计学习基础:数据挖掘、推理与预测》第二版)


作 者RobertTibshirani、Trevor Hastie、Jerome Friedman。“这本书的作者是Boosting方法最活跃的几个研究人员,发明的Gradient Boosting提出了理解Boosting方法的新角度,极大扩展了Boosting方法的应用范围。


这本书对当前最为流行的方法有比较全面深入的介绍,对工程人员参考价值也许要更大一点。另一方面,它不仅总结了已经成熟了的一些技术,而且对尚在发展中的一些议题也有简明扼要的论述。让读者充分体会到机器学习是一个仍然非常活跃的研究领域,应该会让学术研究人员也有常读常新的感受。”


4.《Data Mining:Concepts andTechniques》(《数据挖掘:概念与技术》第三版)


作 者(美)Jiawei Han[8]、(加)Micheline Kamber、(加)Jian Pei,其中第一作者是华裔。本书毫无疑问是数据挖掘方面的的经典之作,不过翻译版总是被喷,没办法,大部分翻译过来的书籍都被喷,想要不吃别人嚼过的东 西,就好好学习英文吧。


5.《AI, Modern Approach 2nd》


Peter Norvig,无争议的领域经典。


6.《Foundations of Statistical Natural Language Processing》


自然语言处理领域公认经典。


7.《Information Theory:Inference and Learning Algorithms》


8.《Statistical Learning Theory》


Vapnik的大作,统计学界的权威,本书将理论上升到了哲学层面,他的另一本书《The Nature ofStatistical Learning Theory》也是统计学习研究不可多得的好书,但是这两本书都比较深入,适合有一定基础的读者。



数学基础


1.《矩阵分析》







请到「今天看啥」查看全文