专栏名称: 张铁蕾
老程序猿,全栈攻城狮,CTO,与你一起讨论技术干货和个人成长。
51好读  ›  专栏  ›  张铁蕾

用统计学的观点看世界:从找不到东西说起

张铁蕾  · 公众号  ·  · 2019-08-03 07:55

正文

在家里,妻子总是埋怨我找不到东西。于是我辩称,很多东西并不是我放的,找不到很正常啊。每当这个时候,她总是一脸不屑地说,很多东西也不是她放的,但为什么她很快就能找到?

我回想了一下,事实似乎真的如此。不管是孩子的日常衣物、水杯文具,还是常年不用的证照、文件之类,她总能快速地把它翻找出来。按她的说法,你自己“扒拉扒拉”不就找到了吗?

根据我惯常的程序员思维,这种到处“扒拉扒拉”找东西的方式,属于最原始的遍历搜索,应该很低效才对啊。其实在房间里找东西,有点类似于在一大堆数据中查找你想要的那份数据,要想效率高,怎么着也得建个索引吧。但家里显然不存在这么一个「索引」。

妻子找东西似乎是依靠着某种直觉的。这不太科学。

直到有一天,我在维基百科上发现了一个统计学理论,才豁然开朗。这个理论叫做 贝叶斯搜索理论 (Bayesian search theory)[1],恰好是一个关于「如何找东西」的理论。当然,它并没有直接告诉我们如何在房间里找东西,而是给出了一套统计学方法,在实际中经常应用在「失物搜索」领域,比如在海面上打捞沉船或者飞机残骸等等。

这个理论是1966年由美国海军的一位科学家发明出来的。

当时正值冷战期间。美国空军的一架B-52G轰炸机,携带了四枚氢弹,在西班牙海岸外的地中海上空执行一个例行的飞行活动。谁也没有想到,轰炸机在空中加油时竟与加油机相撞,结果飞机解体,那四枚氢弹也自然不知所踪。其中的三枚氢弹很快就被搜索小组找到了,但第四枚始终下落不明。

为了寻找第四枚氢弹,美国海军派出了一个技术援助小组。小组成员中就包含这位科学家——约翰·克雷文博士[2]。想象一下当时的情景:这第四枚失踪的氢弹,肯定是落到了一个出人意料的地方,否则它早就像前三枚氢弹一样被找到了。但可能性实在太多了,它可能落到了西班牙海岸边某个地方,也可能落到了地中海广阔的水域中。总之,寻找氢弹的任务如同大海捞针,看起来根本无从下手。

但约翰·克雷文独辟蹊径,依据 贝叶斯推断 (Bayesian inference)[3]的数学原理,发明出了贝叶斯搜索理论这一套方法,并在这个理论的指导下成功找到了第四枚氢弹。

这一套方法后来又曾多次在海上搜救中派上用场。比如,1968年美国海军寻找失联的核潜艇[4],2009年法航447航班空难后寻找黑匣子[5],都是依靠这套方法。没错,2014年的马航370失联后的搜救工作[6],也使用了这套方法(但不幸没有找到)。

这个 贝叶斯搜索理论 听起来似乎有些神奇,那它到底是怎么做的呢?

实际上,它的关键在于能够将不确定的信息,包括根据经验做出的各种猜测,都用数字化的方式量化出来,并根据搜索过程中的阶段性成果不断地对这些数字进行修正。为了理解这个理论的细节,我们需要一点点概率论和统计学的知识作为铺垫。因此,现在我们先不过早地深入到这些细节中去,而是先来讲一个看似无关的小故事,然后我们再回过头来看这个理论。

一个关于决策和可信度的小故事

假设有一家公司,由于市场环境的变化,亟待进行业务转型。如果转型失败,公司就面临倒闭。

现在假设你临危受命,被董事会任命为公司的CEO,来领导公司的转型。经过多方调研以及与公司同事们的讨论,你发现有一个新的业务方向值得去尝试。但是,向这个新业务的转型需要巨额的前期投资。接着你发现,根据公司目前的财务状况,你只能一次性成功,根本没有试错的机会。也就是说,如果选错了投入的方向,那么公司最后的资本就会耗尽,也就彻底没有翻盘的机会了。所以,你现在需要做一个决策:到底要不要投入这个新业务?

这个决策责任重大,你自己也有点拿不准。于是,你找来了公司核心的两位元老 (A和B),打算听取他们的意见。

很不幸,A和B对于新的业务方向意见不同。A比较乐观,而B比较保守。他们分别做出了如下的论断:

  • R A : 公司有九成的把握可以在新业务上取得成功;

  • R B : 公司只有三成的把握可以在新业务上取得成功;

这时候你迫切地想知道谁的论断更准确一点,更接近实际情况。但是,由于你刚刚上任不久,以前跟A和B从来没有打过交道,所以你对于他们谁说的话更靠谱完全没有任何信息。把这个情况定量地表达出来,你可以说,A和B做出的两个论断可信度都是50%。这个可信度可以用概率表示出来,如下:

  • P ( R A ) = 0.5

  • P ( R B ) = 0.5

这样呢,公司在新业务上转型成功和失败的概率,针对A和B的两个论断,可以分别表达成条件概率的形式:

  • P (转型成功| R A ) = 0.9

  • P (转型失败| R A ) = 1 - 0.9 = 0.1

  • P (转型成功| R B ) = 0.3

  • P (转型失败| R B ) = 1 - 0.3 = 0.7

上面四个式子具体是什么含义呢?我们稍微解释一下。以第一个式子为例, P (转型成功| R A ) = 0.9,表示“如果A的论断是成立,那么转型成功的概率是0.9”。其它几个式子的含义依此类推。

所谓兼听则明,偏信则暗,于是你想综合考虑一下两个人的论断,通过计算来确定公司转型成功和失败的概率最终分别是多少。这需要使用 全概率公式 (Law of total probability)[7]:

  • P (转型成功) = P (转型成功| R A ) * P ( R A ) + P (转型成功| R B ) * P ( R B ) = 0.6

  • P (转型失败) = P (转型失败| R A ) * P ( R A ) + P (转型失败| R B ) * P ( R B ) = 0.4

好了,现在你得到了一个结论:公司在这个新业务上转型成功的可能性是60%。不算太高,但暂时也没有找到更好的方向可供选择,所以你决定放手一搏,驱动整个公司进行转型。

一年后,毫无疑问,你会得到两个结果中的一个:转型成功了,或者,转型失败了。

先考虑转型失败的情况,这时候公司的钱花光了,面临倒闭。但是,你想吸取教训,对决策过程进行一下复盘。基于现在最新的结果(转型失败了),你可以重新计算当初A和B的两个论断的可信度,这需要用到 贝叶斯定理 (Bayes' theorem)[8]:

  • P ( R A |转型失败) = P (转型失败| R A ) * P ( R A ) / P (转型失败) = 0.125

  • P ( R B |转型失败) = P (转型失败| R B ) * P ( R B ) / P (转型失败) = 0.875

这两个式子的意思是说,根据现在转型失败这一客观事实,你修正了当初两个论断的可信度。它们不再分别是50%了,而是A的论断的可信度急剧降低,变成了12.5%,而B的论断的可信度升高到87.5%。这里可能有人会说,现在转型失败已经是确凿的事实了,为什么A的论断的可信度没有降低到零啊?这个倒也很好理解,因为A并没有说转型会100%成功。就算A的论断完全符合实际,公司仍有10%的概率会转型失败。但是不管怎么说,从概率上判断,我们可以认为,A说的话没有那么靠谱了。这可能会促使你对A产生一个很不好的印象,也许你以后再也不想跟A一起玩了。

再来考虑一下转型成功的情况。这时候公司找到了新的业务方向,前景一片光明。你同样想对决策过程进行一下复盘。基于现在最新的结果(转型成功了),你重新计算了当初A和B的两个论断的可信度(还是基于 贝叶斯定理 ):

  • P ( R A |转型成功) = P (转型成功| R A ) * P ( R A ) / P (转型成功) = 0.75

  • P ( R B |转型成功) = P (转型成功| R B ) * P ( R B ) / P (转型成功) = 0.25

这意味着,在你心目中,A的靠谱程度升高到75%,而B的靠谱程度降低到25%。假设后来公司又有新的决策需要制定,而A和B又给出了不同的论断,分别记为:

  • S A

  • S B

那么这一次,你可以把上一次对A和B论断的可信度的最新估计,当做初始的可信度估计,即:

  • P ( S A ) = 0.75

  • P ( S B ) = 0.25

然后,你就可以像上次决策过程一样,进行新一轮的计算评估了。并且,在决策的执行结果出来后,可以继续调整对于A和B论断的可信度的估计值。

贝叶斯学派和贝叶斯推断

在上面这个小故事中,我们已经不自觉地将「可信度」这个看似主观的概念用概率来表达了。那么这个做法合不合理呢?

实际上,统计学是分为两个学派的:频率学派和贝叶斯学派,它们对于概率的解释完全不同。

频率学派将概率解释成随机事件不断重复试验得到的频率的极限值。典型的例子就是掷硬币。如果我们不停地重复进行掷硬币的试验,那么出现正面的次数与总的试验次数的比值(也就是正面出现的频率),随着试验次数的增加,将无限趋近于正面出现的概率。

贝叶斯学派则将概率解释成对于不确定性的度量。在这种观点下,任何未知量都可以看做一个随机变量。在实际中,存在很多不确定性的事件,并不能用大量重复试验来表达。这种情况用贝叶斯概率来表达就比较方便。比如,明天的降水概率;再比如,北极冰帽在十年后完全消失的概率。我们前面将「可信度」表达成概率,显然也是指的贝叶斯概率。

贝叶斯定理 在频率学派和贝叶斯学派中都是被承认的。但是,它在贝叶斯学派中有特殊的意义。我们通常说, 贝叶斯定理 能将一个 先验概率 (prior probability)[9]转换成一个 后验概率 (posterior probability)[10],而这个转换是由于观测到了新的数据才发生的。

具体到上面的小故事中,最开始对于A和B的两个论断的可信度分别进行的估计,即 P ( R A )和 P ( R B ),就属于 先验概率 ,因为这两个估计值是在观测到任何真实数据之前对于「可信度」的一种预估。也就是说,得到这两个值只能根据个人经验和历史资料,在预估的时候并没有任何真实发生的客观事实可以用来佐证这两个论断的可信程度。







请到「今天看啥」查看全文