两个非常重要的概念:均值和标准差。前者用于根据不同的测量值估计真实值,后者用于度量测量值的离散程度。
单独来看,这两个概念都是有用的;放在一起,它们的威力就更强大了:一起作为正态分布(normal distribution)的参数,这是最著名的概率分布。
来源 | 《
趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者 | [美] 威尔·库尔特(Will Kurt)
单独来看,这两个概念都是有用的;放在一起,它们的威力就更强大了:一起作为正态分布(normal distribution)的参数,这是最著名的概率分布。
我们将学习如何使用正态分布来确定一个确切的概率。这个概率是一个估计值与其他估计值相比时的可信程度。参数估计的真正目的不仅仅是估计一个值,而是为一系列可能的取值分配相应的概率。这让我们能够对不确定的值进行更复杂的推理。
均值是一种基于现有数据估计未知值的可靠方法,标准差则可用于度量数据的离散程度。通过计算观察结果的离散程度,我们可以确定自己对均值的相信程度。观察结果越分散,我们对均值的把握就越小,这是有道理的。正态分布让我们在考虑观察结果时,可以精确地量化自己对各种信念的确信程度。
假设一家烟花爆竹厂正在做安全测试。测试人员知道,如果离爆炸物200英尺远,就能确保安全,而他需要18秒的时间才能够走这么远。如果再靠近一些,他就不能保证自己安全撤离。
测试人员有6根同样长的引火线,他计划先测试其中5根。由于长度都一样,因此这些引火线烧完所需的时间也应该一样。测试人员点燃每根引火线,测量烧完所需要的时间,以确保自己有18秒的撤离时间。以下是他记录的每根引火线烧完的时间(以秒为单位):19、22、20、19、23。
到目前为止结果还不错:没有哪根引火线烧完的时间小于18秒。计算这组数据的均值,可以得到
,计算标准差则得到
。
但现在需要确定一个具体的概率,即根据观察到的数据,引火线在18秒内烧完的可能性有多大。测试人员希望有99.9%的把握能安全撤离。
给定一组测量值,均值能对其真实值进行很好的估计,但没有给出任何方法来表达自己对这个值就是真实值的相信程度。
可以通过计算标准差来测量数据的离散程度。这似乎也有助于我们计算出替代均值的可能性有多大。假设你不小心将玻璃杯掉到了地上,玻璃杯碎了。在清理时,你可以根据玻璃碎片的分散程度来决定是否需要去对面的房间检查有没有玻璃碎片。如图12-1所示,如果这些碎片非常聚集,你就会更确信不需要去对面的房间检查。
图1 当玻璃碎片比较聚集时,你就能更确定需要清理哪里
然而如果玻璃碎片很分散,如图12-2所示,你可能就会想到对面房间的门口清扫一下,即使你当时并没有看到那里有碎玻璃。同样,如果引火线燃烧时间非常分散,即使没有观察到任何引火线的燃烧时间小于18秒,最后一根引火线也有可能会在18秒内烧完。
当观察结果在视觉上分散时,我们会直观地认为在自己所能看到的范围之外可能还有其他结果。我们也不太确定数据点的中心到底在哪里。以玻璃杯的例子来说,如果没有亲眼目睹玻璃杯掉落的过程,而且玻璃碎片很分散,那么我们就很难确定这些碎片的位置。
图2 当玻璃碎片很分散时,你就不太确定它们可能会在哪里
要量化这种直觉,可以用人们研究得最多也最熟悉的概率分布:正态分布。
正态分布是一种连续的概率分布(就像第5章中的
分布一样),在已知均值和标准差的情况下,它最好地描述了对不确定测量值可能信念的强度。均值
和标准差
是正态分布仅有的两个参数。
且
的正态分布呈钟形,如图12-3所示。
图12-3 均值为0且标准差为1的正态分布
可以看到,均值位于正态分布的中心位置,正态分布的宽度则由其标准差决定。图12-4和图12-5显示了均值为0且标准差分别为0.5和2的正态分布。
图12-4 均值为0且标准差为0.5的正态分布
图12-5 均值为0且标准差为2的正态分布
随着标准差的缩小,正态分布的宽度也在缩小。
如前所述,正态分布反映了我们对均值的信心。因此,如果测量值比较分散,我们就会认为有更大范围的可能值,对中心均值的信心也会降低。相反,如果所有的测量值都差不多(也就意味着
很小),我们就会相信自己的估计是相当准确的。
当对一个问题的了解只有观察数据的均值和标准差时,正态分布就是我们的信念状态的最真实表示。
回到引火线问题上,我们有一个正态分布,其中
而
。除了记录的燃烧时间,我们对引火线的其他特性一无所知,因此我们可以利用观测到的均值和标准差对数据进行正态分布的建模(见图12-6)。
图12-6 均值为20.6且标准差为1.62的正态分布
我们想回答的问题是:根据观测到的数据,引火线燃烧18秒或更短时间的概率是多少?为了回答这个问题,需要使用PDF,我们在第5章中已经学习过这个概念。正态分布的PDF是:
为了得到所求的概率,需要在不大于18的值上对这个函数进行积分:
你可以这样想:积分就是直接把曲线下面积作为你感兴趣的区域,如图12-7所示。
图7 曲线下面积即我们感兴趣的区域
阴影区域的面积代表了在给定测量值的情况下,引火线燃烧持续时间不超过18秒的概率。请注意,尽管没有一个测量值小于18秒,但由于测量值的离散程度,图12-7的正态分布表明,引火线燃烧持续时间不超过18秒仍然是可能的。通过对所有不大于18的值进行积分,我们就可以计算出引火线的燃烧时间不能保证测试人员安全撤离的概率。
手动进行积分并非易事。幸运的是,我们可以用R语言进行积分。
不过在这样做之前,我们需要确定从哪个值开始进行积分。正态分布定义的范围包括从负无穷(
)到正无穷(
)的所有可能值。所以在理论上我们需要计算的是:
(引火线燃烧持续时间≤18秒)
但显然,我们不能在计算机上从负无穷开始积分。幸运的是,如图12-6和图12-7所示,PDF很快就变成了一个非常小的值。我们可以看到曲线在10这个位置几乎与横轴重合,这就意味着在这个区域内概率几乎为零,所以只需对从10到18的区域进行积分。我们也可以选择更小的值,比如0,但是因为这个区域内概率几乎为零,所以它并不会影响计算结果。12.4节将讨论一种启发式方法,使积分下限或上限的选择更容易。
我们将使用R语言的integrate()函数和dnorm()函数(这是R语言针对正态分布PDF的函数)进行积分,正态分布PDF的计算语句如下:
integrate(function(x) dnorm(x, mean=20.6, sd=1.62),10,18)
0.05425369 with absolute error < 3e-11
四舍五入后,我们可以看到
(引火线燃烧持续时间≤18秒)
。这告诉我们,引火线燃烧持续时间小于或等于18秒的概率约为5%。
正态分布的威力在于,我们可以对均值的各种可能性进行概率推理,这让我们了解了均值的现实意义。我们可以在任何时候使用正态分布来推理那些只知道均值和标准差的数据。
然而,这也是正态分布可能出问题的地方。在实践中,如果除了均值和标准差之外还有关于所求解问题的其他信息,那么最好利用这些信息。我们将在后面看一个这样的例子。
虽然使用R语言对正态分布进行积分要比手动求解积分容易得多,但是有一个非常有用的技巧,可以在处理正态分布时进一步简化问题。对任何已知均值和标准差的正态分布,我们都可以用
来估计
两侧的曲线下面积。
例如,从
(比均值小一个标准差)到
(比均值大一个标准差),这个范围的曲线下面积占分布质量的68%。
也就是说,有68%的可能取值落在均值±一个标准差的范围内,如图12-8所示。
图8 68%的概率密度(曲线下面积)在均值±一个标准差的范围内
我们可以继续看一下到均值的距离为
倍数的范围。表12-1给出了这些区域范围的概率。
表1 距均值不同距离时曲线下面积的概率
这个小技巧对于快速评估给定值的可能性非常有用,即使是很小的样本也如此。你只需要一个计算器就可以轻松计算出
和
。这意味着你甚至可以在开会的时候做一些相当准确的估计!
举个例子,在第10章测量降雪量时,我们有以下测量结果:6.2、4.5、5.7、7.6、5.3、8.0、6.9。根据这些测量结果,可以得出均值约为6.31,标准差约为1.17。这意味着我们有95%的把握确定,降雪量的真实值在3.97(6.31-2×1.17)英寸和8.65(6.31+2×1.17)英寸之间。这既无须手动计算积分,也无须启动计算机来运行R语言。
即使我们确实想使用R代码来积分,这个技巧也可以用来确定积分范围的下界或上界。如果我们想知道引火线燃烧时间超过21秒的概率,但又不希望从21开始积分直到正无穷,那么我们可以用哪个值作为积分上界呢?答案是,从21到25.46(也就是20.6+3×1.62),即到与均值相差3个标准差。与均值相差3个标准差的范围一共占据总概率的99.7%。剩余的0.3%位于这个范围的两边,其中只有一半,也就是概率密度的0.15%,位于大于25.46的区域。因此,如果对21到25.46这个范围进行积分,那么我们所得的结果只会遗漏极小的概率。当然,我们可以很容易地使用R代码对21到一些真正安全的上界(比如30)进行积分,但是这需要我们弄清楚“真正安全”意味着什么。
你应该听说过用西格玛事件(sigma event)来描述某件事情,例如,某股价的下跌是一个8西格玛事件。这种表述的意思是,观察到的数据与均值有8个标准差。我们在表12-1中看到了距均值分别有1个、2个和3个标准差的概率,分别是68%、95%和99.7%。你很容易根据这些数据做出判断,一个8西格玛事件是极不可能发生的。事实上,如果你观察到的数据与均值相差5个标准差,那么这很可能说明你建立的正态分布并没有准确地模拟相应的数据。
为了说明一个事件随着
西格玛的增加而变得越来越罕见,我们以你在某一天中可能观察到的事件为例。有些事件非常常见,例如你在日出时醒来;另一些事件则不太常见,比如醒来后发现那天是你的生日。表12-2显示了每增加1西格玛,需要多长时间来期待该事件发生。
表2 事件随着
西格玛的增加而越来越罕见
距均值的距离
|
预计每隔多长时间发生一次
|
|
3天
|
|
3周
|
|
1年
|
|
40年
|
|
5000年
|
|
140万年
|
可见,一觉醒来发现今天是你的生日,这是3西格玛事件。一觉醒来发现一颗巨大的小行星正在撞向地球,这是6西格玛事件。
你可能还记得在第5章中学习的
分布。在给定结果总数是
次的情况下,其中期望的结果出现
次而不期望的结果出现
次,
分布可以估计真实的概率。基于这一点,你可能会质疑,在只知道给定数据集的均值和标准差的情况下,正态分布是否为最好的参数估计建模方法。毕竟,只通过观察发现出现3次1和4次0,我们就可以建立
、
的
分布模型。这组数据的
,而
。现在我们可以将
、
的
分布与
、
的正态分布进行比较,如图12-9所示。
图9 比较