专栏名称: 机器学习算法与Python实战
长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
目录
相关文章推荐
湖北工信  ·  最新解读!事关湖北汽车以旧换新 ·  昨天  
中国市场监管报  ·  最新召回!涉及这些品牌 ·  昨天  
小新说车  ·  新增2座版,还有开孔机盖!小米SU7 ... ·  昨天  
汽车最前线  ·  买车比买iPhone还便宜?补贴完不到1万, ... ·  3 天前  
汽车金融大全APP  ·  抵押解押上牌过户,全国可做 ·  3 天前  
51好读  ›  专栏  ›  机器学习算法与Python实战

贝叶斯数学系列再添神作!原著豆瓣高达9.4分!

机器学习算法与Python实战  · 公众号  ·  · 2024-03-28 17:19

正文


亲爱的,我在寻找真爱,

穿过这浓雾是如此艰苦。

请指出通往你内心之路,

我会重整旗鼓加快速度。


来源 | 《 贝叶斯数据分析(第2版)》
作者 | 约翰·K. 克鲁施克(John K. Kruschke)
译者:王芳

1
你真的可以读懂本书


本书告诉你如何使用真实的数据(比如你自己的数据)来进行贝叶斯数据分析。本书从概率与程 序设计的基本概念出发,逐渐进阶到实际数据分析中用到的高级模型。你不需要具备统计与编程的基础。

本书面向的是社会科学及生物科学领域的一年级研究生或高年级本科生:在乌比岗湖长大,但不是接受过核物理学家的训练又决定来学习贝叶斯数据分析的神话般的人物。(本书第 1 版出版后,真的有这样神话般的人联系了我!所以,即使你确实接受过核物理学家的训练,我同样希望你能从本书中有所收获。)

下面列出了学习本书所需具备的具体的预备知识。但首先说明一点:正如你在读本章内容时所看 到的,本书每一章的开端都是一位著名诗人所写的优雅而富有见解的诗。这些是由扬抑抑韵格的四音步诗行构成的四行诗,俗称“乡村华尔兹”韵律。通过引用华尔兹时代不朽的人类主题,这些诗传达了每一章的概念主题。

如果你觉得它们并不是那么有趣,

如果它们令你想要回你花费的钱,

好吧,亲爱的,你花费的金钱实际很少,

因为,如果你继续阅读,将会学到很多。

预备知识

数据分析中总是不可避免地要用到数学。不过,本书绝对不是一本数理统计教材,也就是说,本 书的重点并不是定理证明或者数学分析 但是我确实希望阅读本书的你具有一些数学分析知识,也 就是微积分的基础知识。 具体地说,如果你理解表达式 的含义,你就可以继续阅读本书了。

注意前面这句话是要你“理解”积分的含义,而不是要你自己来“创造”它的含义。因为数学的推导 过程有助于理解,所以本书将向你呈现一系列的中间步骤。 这样会使你熟悉整个旅途的过程与目的地 并感到安心,而不是像被蒙住眼睛扔到后排座椅上然后在高速路上绕弯一样而感到晕车。

如果你有一些计算机编程的基础经验——虽然这种经验并不是必需的——那么你将更快地上手。 计算机程序只是计算机可以执行的一系列命令而已。 如果你曾经把等号输入到 Excel 电子表格的单元 格中,那么你就已经写过编程命令了。 如果你曾经利用 Java C Python Basic 或其他任何一种计算 机编程语言写过一系列的命令,那么说明你已经准备好了。 我们将使用的语言是 R JAGS Stan 它们都是免费的,本书中会对其进行详细的解释。


2
本书内容


本书分为三大部分。第一部分介绍基础知识: 贝叶斯推断 的基本思想、模型、概率以及 R 语言 编程。

第二部分涵盖了现代贝叶斯数据分析的所有关键思想,使用的是最简单的数据类型,比如同意/ 不同意、记住 / 忘记、男性 / 女性等二分数据。

由于这些数据非常简单,内容的重点就可以集中在贝叶 斯技术上。 特别地,这部分深入且直观地解释了现代技术“马尔可夫链蒙特卡罗”( Markov chain Monte Carlo MCMC )方法。 因为这一部分用的是简单的数据,所以我们可以用丰富的图形细节来帮助我们 直观地想象层次模型的意义。 第二部分也探讨了用来计算得出特定精度的结论所需要的数据量的方 法,也就是“功效分析”( power analysis )。

第三部分将在实际数据上应用贝叶斯方法。这些应用是围绕所要分析的数据类型和所采用的解释 或预测数据的方法类型组织的。 不同类型的方法需要不同类型的数学模型,但它们隐含的概念总是相 同的。 之后将列举所涵盖内容的更多细节。

请按顺序阅读本书各章,以学习基本的贝叶斯数据分析技巧。尤其是第一部分和第二部分,如果 按顺序阅读,你会更容易掌握其中的知识。 但如下文所述,你也可以采用更短的阅读路线。


3
你很忙。你最少要阅读哪几章


以下是本书的极简浏览列表。

  • 第 2 章:贝叶斯推断的思想与模型参数。这一章介绍重要的概念,不要跳过。

  • 第 3 章:R 语言。你需要知道如何安装软件及与本书相关的程序扩展包。其他部分可以略过, 或者之后需要时再回过头来阅读。

  • 第 4 章:概率的基本思想。你很有可能已经了解了这一章的内容,那就略过。

  • 第 5 章: 贝叶斯法则

  • 第 6 章:贝叶斯法则的最简单的正式应用,本书的其余部分都有提及。

  • 第 7 章:马尔可夫链蒙特卡罗方法。这一章介绍了使现代贝叶斯应用成为可能的计算方法。你 不需要清楚所有的数学细节,但需要明白那些图片中的要点。

  • 第 8 章:用 JAGS 编程语言实现 MCMC。

  • 第 16 章:两组数据的 贝叶斯估计 。使用上述各章的所有基本概念对两组数据进行比较。


4
你真的很忙!能阅读得再少一些吗


如果你只想了解基本概念并以最快的速度获得操作经验,并且你已经具有一些传统概率统计的 知识,比如 t 检验,那么我的建议如下。 首先阅读本书第 2 章,获得概念基础。 然后阅读 Kruschke 有关两组数据的贝叶斯估计的文章( Kruschke 2013a ,与传统的 t 检验类似)。 基本上,这时你已经 跳到了本书的第 16 章。 这篇文章提供了帮助你获得操作经验的软件。 该软件有一个版本是基于 JavaScript 的,无须安装其他软件即可在你的浏览器中使用。 有关详细信息,请访问印第安纳大学伯 明顿分校网站。


5
你想多读一点内容,但不要太多


在阅读完上面的极简浏览内容之后,如果你想深入了解更多的具体应用,需要阅读以下各章。

  • 第 9 章:层次模型。许多实际的应用场景涉及层次结构或“多级”结构。使用贝叶斯方法时非 常令人兴奋的一件事,就是它们可以毫无障碍地应用于层次模型。

  • 第 13 章:从贝叶斯角度对研究进行功效分析和研究规划。这一章在第一遍读时并不重要,但 重要的是请不要永远跳过它。 毕竟,失败的计划就是计划的失败。

  • 第 15 章:广义线性模型概述。想要知道什么类型的模型适用于你的数据,你需要了解常规模 型的典型种类,其中许多模型可以归类于广义线性模型。

  • 第 16~24 章中的一部分。直接跳到与你感兴趣的数据结构相关的章节(阅读完第 15 章的时候 你会明白的)。

  • 25.1 节,其中有关于如何报告贝叶斯数据分析结果的建议。如果你想让你的研究有一定的影响 力,你就必须能够向其他人介绍你的研究。 (好吧,我想可能还存在其他的说服方法,但你必 须从其他地方得知了。


6
如果你只是需要拒绝一个零假设……


传统的统计方法关注的往往是我们能否拒绝一个零假设,而不是估计它的幅度及其不确定性。有 关零假设的贝叶斯观点,请阅读以下两章。

  • 第 11 章:传统方法中使用 p 值进行零假设显著性检验的风险。

  • 第 12 章:评估零假设值的贝叶斯方法。



7
本书中与某传统检验等同的方法在哪里


由于许多读者在阅读本书之前已经熟悉了传统的统计方法,也就是零假设显著性检验(null hypothesis significance testing,NHST),因此,本书将提供与 NHST 课本上常见的主题类似的贝叶斯 方法。 表 1-1 列出了标准统计学入门教科书中涵盖的各种统计检验方法,以及与它们类似的贝叶斯方 法在本书中的第几章。

表 1-1 中提到的统计检验方法均被称为“广义线性模型”。已经熟悉这一术语的人,可以直接翻到 表 15-3 以查看哪些章节涵盖了哪些实例。 那些还不熟悉这一术语的人,请不要担心,因为第 15 章的 全部内容都在介绍并解释这些思想。

表 1-1 可能使人得出一个肤浅的结论:“呀,这张表格告诉我们,在所有情况中,传统统计检验方 法与贝叶斯方法所做的事情都类似,所以花费时间和精力来学习贝叶斯数据分析是没有意义的。 ”这 个结论是错误的。 首先,传统的 NHST 有深层次的问题,我们会在第 11 章讨论。 其次,贝叶斯数据 分析提供了多种内容更丰富且信息量更大的统计推理方法,本书中的许多例子将证明这一点。


8
第 2 版中有哪些新内容


这一版中主题的基本进程与上一版相同,但是从封面到封底,本书的所有细节都有所变化。本书 里的所有程序全部进行了重新编写。 以下是一些较为重要的变化。

  • JAGS 和 Stan 的程序是全新的。这些新程序比本书第 1 版中的脚本更易于使用。特别是现在有 一些精简的高级脚本,可以帮助你更简便地处理自己的数据。 写这些新程序的过程本身就是一 项艰巨的任务。

  • 第 2 章介绍了贝叶斯推断针对多种可能性来判断它们可信度的基本思想。我重写了这一章并 进行了扩展。

  • 关于编程语言 R(第 3 章)、JAGS(第 8 章)和 Stan(第 14 章)的三章是全新的。关于 R 的 一章内容较长,包含了对数据文件与结构的解释,例如列表和数据框,还有一些工具函数。 (这 一章还有一首我特别喜欢的新诗。 )关于 JAGS 的一章包含了对 runjags 包的解释,它是用来在 并行的计算机核心上运行 JAGS 的。 关于 Stan 的一章新颖地解释了哈密顿蒙特卡罗 (Hamiltonian Monte Carlo)算法的概念,还解释了 Stan 和 JAGS 在程序流程上的概念差异。

  • 关于贝叶斯法则的第 5 章内容经过了大幅修订,强调了贝叶斯法则如何在从先验到后验的过程 中,在参数值之间重新分配可信度。 前面各章中所有关于模型比较的内容都删掉了,这些内容 在整合之后将以更精简的形式在第 10 章呈现。

  • 关于 Metropolis 算法和 Gibbs 抽样的内容原本是独立的两章,现在被整合进关于 MCMC 方法 的第 7 章。

  • 第 7 章和第 8 章中添加了大量关于 MCMC 收敛性诊断的新内容,其中有关于自相关和有效样 本量的解释,还有关于最高密度区间(highest density interval,HDI)范围估计的稳定性的解 释。 新的程序会展示这些诊断方法。

  • 关于层次模型的第 9 章新增了关于收缩量这个关键概念的大量独特的材料,以及新的例子。

  • 关于模型比较的内容在本书第 1 版中是分散在不同章节中的,现在被整合进独立的一章(第 10 章)。 这一章强调了模型比较与层次建模。

  • 关于零假设显著性检验的第 11 章也经过了全面的修订。新版中增加了介绍抽样分布概念的新 内容,以及关于各种终止规则和多重检验的抽样分布的新说明。

  • 关于零假设值评估的贝叶斯方法的第 12 章,添加了关于实际等价区域(region of practical equivalence,ROPE)的新材料、用贝叶斯因子接受零假设值的新例子,以及使用 Savage-Dickey 方法的关于贝叶斯因子的新解释。

  • 关于统计效应与样本量的第 13 章,添加了关于序列检验的内容,并建议将估计的精度作为研 究目标,而不是拒绝或接受某一特定的值。

  • 关于广义线性模型的第 15 章经过了全面修订,将用更多更完整的表格显示预测变量类型与被 预测变量类型的多种组合。

  • 关于均值估计的第 16 章,新增了关于两组比较的大量讨论,以及效应量(effect size)的估计 方法。

  • 关于计量变量回归的第 17 章,现在包含大量使用 JAGS 和 Stan 进行稳健线性回归的例子。关 于层次回归的新示例(其中包含二次趋势的示例),使用了图形来说明个体斜率与曲率估计的 收缩,同时说明了加权数据的用法。

  • 关于多重线性回归的第 18 章,新增了关于贝叶斯变量选择的一节,其中,备选预测变量概率 性地进入回归模型。

  • 关于单因素方差分析的第 19 章中,例子都是全新的,包括一个完全可行的与协方差分析类似 的例子,以及一个涉及非齐性方差的新例子。

  • 关于多因素方差分析的第 20 章中,例子都是全新的,包括一个完全可行的裂区实验设计的例 子,这个设计同时包含一个被试内变量与一个被试间变量。

  • 关于逻辑斯谛回归的第 21 章,增加了稳健逻辑斯谛回归的例子,以及名义变量的例子。

  • 关于多重逻辑斯谛回归的第 22 章是全新的。这一章中有本书第 1 版缺少的使用广义线性模型 (也就是使用名义变量)的案例。

  • 关于顺序变量的第 23 章进行了大幅扩展。新的例子解释了单组数据与两组数据的分析,演示 了将顺序变量作为计量变量进行分析的特点。

  • 新增的 25.4 节解释了在 JAGS 中如何对缺失数据建模。

  • 很多练习题是全新的或者经过修改的。

哦,我是不是提到过本书这一版的封面与第 1 版不同?明确一下小狗与贝叶斯法则之间的关系: 后验小狗的折叠耳朵,是似然小狗的直立耳朵与先验小狗的松软耳朵折中的结果。 MCMC 方法通常不 计算边际概率,因此分母中的小狗因为没事可做而昏昏欲睡。 我希望本书封面与封底之间的内容就像 封面上的小狗一样友好且迷人。




推荐阅读
《贝叶斯数据分析(第2版)》
作者:约翰·K. 克鲁施克(John K. Kruschke)
译者:王芳


1.美国加州大学伯克利分校博士,特罗兰研究奖获得者,美国印第安纳大学心理学和脑科学名誉教授、统计学副教授约翰·K. 克鲁施克,拥有近25年的统计学教学经验总结!

2.极佳的贝叶斯统计入门书籍!如果你认为统计学很难,或许是因为你在入门时错过了本书。

3.原著豆瓣高达9.4分!全面覆盖实用的贝叶斯统计知识,可读性强!


01




《贝叶斯的博弈:数学、思维与人工智能》

作者:黄黎原

译者:方弦


法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。


贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。



02







请到「今天看啥」查看全文