专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  CVPR2025 | ... ·  16 小时前  
大数据文摘  ·  AI超级碗!英伟达GTC大会宣布Blackw ... ·  21 小时前  
天池大数据科研平台  ·  谷歌重磅推出全新Scaling ... ·  2 天前  
51好读  ›  专栏  ›  数据派THU

独家 | 一文带你熟悉贝叶斯统计

数据派THU  · 公众号  · 大数据  · 2021-01-25 17:07

正文


作者: Matthew Ward
翻译:陈之炎
校对:陈丹

本文 约5000字 ,建议阅读 10+ 分钟

本文为你带来贝叶斯统计的基础示例及 全面解 释。


标签:贝叶斯统计

图:Unsplash,Chris Liverani
贝叶斯统计这个术语最近被广泛使用。它常用于社交场合、游戏和日常生活中,如棒球、扑克、天气预报、总统选举投票等。

在许多科学领域,可以用贝叶斯统计来确定粒子物理和药物有效性实验的结果,它还可用于机器学习和人工智能,以预测你想看什么新闻故事或观看什么Netflix节目。

不管是否对它有充分的理解,贝叶斯统计已融入了我们的日常生活当中,为此,笔者想通过本文对贝叶斯统计做全面的解读,通过一个详尽的例子来展示这个术语的含义。一旦你理解了这个例子,那么便基本上理解了贝叶斯统计。

首先,在读本文之前,假设读者事先对Bayes定理有所熟悉,愿意把公式当成一个黑匣子的读者,也不成问题。如果需要复习一下贝叶斯定理的话,可以到 Medium resources (https://towardsdatascience.com/bayes-theorem-the-holy-grail-of-data-science-55d93315defb) 中查找相关资源。

示例和原始观察


这是教科书中经常用到的一个经典例子,我是十多年前在John Kruschke的《DoingBayesian Data Analysis: A Tutorial Introduction with R》中首次了解到它的,现在已经找不到当时的副本拷贝了,所以这里的任何内容重复纯属偶然。

还是从抛硬币实验开始,把一个硬币翻转N次,每次出现正面时记录一个1,每次出现背面时记录一个0,这便构成了一个数据集。利用这个数据集和Bayes定理,我们想弄清楚抛硬币的结果是否有偏差,以及这个实验的置信度。

技术含量的内容来了:首先定义θ是出现正面的偏差——即硬币落地时出现正面的概率。

这意味着,如果θ=0.5,那么没有偏差,正反面出现的概率完全均等。如果θ=1,那么硬币就永远不会出现反面。如果θ=0.75,那么如果翻转硬币的次数足够大的话,将看到大约每4次翻转中有3次出现正面。
为此,定义 y为硬币是否落在正面或背面的特征。这意味着y只能是0(反面)或1(正面),可以用P(y=1|θ)=θ对这些信息进行数学编码。

打开天窗说亮话:如果硬币为正面的概率是θ,那么出现正面的偏 差便是θ。

同理: P(y=0|θ)=1 - θ

现在,把多次硬币实验串起来,当抛掷N 次硬币时,出现a 次正面(虽然,重复使用a 不太应该,但这样却使得后续符号标注更为便捷)。

由于硬币翻转相互独立,只需将概率相乘,于是:


为了避免使用总数N和减法 ,通常定义b为出现反面的次数,写成:


让我们举两种特例来做一个快速的合理性检查,以确保上述表达式的正确性。
假设: a,b≥ 1. 则:

  • 当偏差趋于零时,概率也趋于零。这是预料中的,因为我们观察到α个正面 (a≥1),所以完全偏向反面是非常不可能的。

  • 同样,当θ接近1时,概率趋近于0,因为观察到至少有一次翻转出现了反面。


如果你已经目瞪口呆了,那么我鼓励你停下来,再真正地思考一下这个问题,从而获得一些关于符号的直觉。它只涉及基础概率和变量的数目。

另一种特殊情况是:当a=0或b=0时。在b=0的情况下,将连续获得a次正面的概率定义为:θα。

接下来,离得出正确的结论还有一定的距离,因为在这个示例中,有一个固定的数据集(正面和反面的集合)需要分析。

因此,从现在开始,应该考虑a和b固定的数据集的情况。

贝叶斯统计


随着θ在[0,1]之间的变化,获得一个分布函数P(a,b|θ)。接下来,要做的是将它乘以一个常数,把它当作是概率分布。

其实,这就称之为beta分布(注意:我在此处省略了它的表达式),只将它记作β(a,b)。

我们乘的数是下面这个式子的倒数 :


称为(移位)β函数。再说一遍,如果没有理解的话,可以忽略它。它只是将分布转换为概率分布。如果我不提的话会有人打电话给我。

似乎不需要这么复杂地把它看作是Θ的概率分布 ,但这实际上正是我们要求的。来看以下三个例子:


红色的表示,如果观察到2个正面和8个背面,那么硬币偏向背面的概率就更大,均值出现在0.20,由于没有足够的数据,在其他地方出现正面的可能性或许更高,存在真正的偏差。

中间曲线说明:如果观察到5个正面和5个背面,那么最有可能的是偏差是0.5,同样还有很大的误差空间。如果试验次数足够多,获得了更多的数据,猜测则更有信心,这种情况也是我们所期望的:


当观察到50个正面和50个背面时,可以说置信度95%,真实偏差在0.40到0.60之间。

此时,你可能会反驳道:这只是普通的统计,哪里是贝叶斯定理?说得对。因为现在不是在真空中建立统计模型,所以才会有贝叶斯定理,偏差存在先验概率。

先写下该案例中的Bayes定理:想通过观察到的数据求出偏差的概率θ,用到了Bayes定理的连续形式:


我只是想让大家对贝叶斯统计有一个感觉,所以我不会详细地去推导这个简化的式子。只需注意“后验概率”(方程的左边)即:在已知数据后得到的分布,似然度乘以先验概率再除以标准化常量。

现在,如果你的分母是B(a,b),那么并计算出的结果将会是另一个β分布!如果你们能理解这些定义,那这并不是太难的练习,但如果你相信了这一点,那么你会看出这样做多么美妙 。

如果先验偏差具有分布β(x,y),数据出现a个正面和b个反面,得到:

P(θ|a,b)=β(a+x, b+y).

根据这个模型中的数据来更新置信度的方式真是无比简单!

现在来检查一下它是否真的有意义 。假设偏差未知,将可以导出先验概率分布β(0,0)是一条平直的线,即所有的偏差都有同样的可能。

来做一个这样的实验,翻转4次硬币,观察到3个正面和1个背面。贝叶斯分析告诉我们,后验概率分布是β (3,1):


哎呀!不确定性太大了,看起来这种偏差在很大程度上是针对正面的。

危险: 这是因为我们使用了一个错误的先验概率。在现实世界中,将偏差0.99与0.45等同起来是不合理的。

来看看,如果使用一个更为温和的先验概率分布β(2,2),此时假设偏差最有可能接近0.5,无论数据说明了什么,它依然是对的。

在这种情况下, 3个正面和1个背面的结果更新为概率分布是β(5,3):


啊,好多了,可以观察到3次正面和1次背面,不要忽略这些数据,新的概率受到了先验概率的影响。

这就是贝叶斯统计的伟大之处!如果我们有大量的数据,那么即便观察到一些偏离点也无伤大雅。

另一方面,只要数据足够充分,即使我们99%肯定某件事也可以接受。这只是一句口头禅的数学形式化:非凡的主张需要非凡的证据支持。

因为只有大量的数据才能够证明硬币偏差是0.90,所以需要有大量的数据,这也是非贝叶斯分析的部分缺陷。如果我们没有大量的数据,并且偶尔抽到了一些异常值,那么就更容易相信这种偏差了。

现在应该了解贝叶斯统计的工作原理了吧,如果理解了这个示例,那么其余的大部分工作只是添加参数和更新版本,实际上,通过上述内容已经对这个术语的含义有了一个非常到位的了解。

得出结论


接下来,需要解释的主要问题是如何处理数据,在对数据进行分析之后,如何得出结论?






请到「今天看啥」查看全文