他是圣路易斯华盛顿大学和斯坦福大学教授,他的博士论文导师是 著名物理学家尤金·维格纳(1963 年诺贝尔物理学奖得主),他在物理学上突出做出了突出贡献,他发表的演讲“一鸣惊人”,改写了教科书的观点,但他毅然选择了概率论,并且在该领域中进行了长达 40 年的持续探索与思考。最终写成这部经典《概率论沉思录》,被无数人奉为神作的教材。
一位物理学家的概率观
20 世纪 70 年代,一位物理学家参加了主要由计算机与航空航天行业的统计学家参与的可靠性与质量控制研讨会.在会上,他做了题为“置信区间与贝叶斯
区间”的主题演讲.他举了几个简单、常见的显著性检验问题,并对使用正统的置
信区间方法和贝叶斯方法的解答进行对比,得出的结论是:
对于每一个问题,正
统的置信区间方法给出的答案显然违背普通人的直觉,而贝叶斯方法得出的结论
则合情合理.这让台下炸开了锅.“下去吧!
”很多人喊道,“这完全是胡说八道!
像置信区间这种理论牢靠且有效的方法怎么可能有这种表现?你简直是在诽谤伟
人!
奈曼绝对不可能提出在如此简单的问题上失效的理论!
你如果连简单的算术
都不会,就没有必要跑到这里来做这样的演讲!
”
于是,演讲者被轰下了台.在气氛稍微缓和之后,他再次上台,向大家一步
一步地展示得出结论的数学计算过程.在场的人都斜视着他,企图第一个找到他
计算过程中的错误.整个检查过程持续了整整 4 小时,但是没有人能发现其中有
任何错误,因为问题和计算都很简单,他得出的结果显然是对的.于是,很多人
的反应变成了:
“我的天啊!
为什么原来没有人告诉我这个呢?
我的教授和教科书
从来没有提到这一点!
看来我得回去重新检查一下许多人所做的工作了!
”
由于得不到普遍接受正统统计学教育的杂志编辑的认可,这个会议报告的内
容直到十年后才得以正式发表,而这位演讲者正是本书的作者,物理学家埃德温·
汤普森·杰恩斯.
他既没有获得过诺贝尔物理学奖,甚至也不是美国科学院院士.
如果不做考证,我们大多数人可能也不知道他的博士论文导师是 著名物理学家尤
金·维格纳(1963 年诺贝尔物理学奖得主).他生前的主要身份只是华盛顿大学圣
路易斯分校和斯坦福大学教授,所以他在 20 世纪 70 时代上台演讲时也不可能因
为带着名人或头衔光环而受到任何优待.
他在物理学上的主要贡献是 1957 年提
出热动力学的最大熵原理,以及 1963 年提出量子光学的杰恩斯–卡明斯(Jaynes
Cummings)模型.但是正如作者所言,他对于理论物理学问题的兴趣只是短暂的
细枝末节,最长久的兴趣还是在概率论上,并且在该领域中进行了长达 40 年的持
续探索与思考.这种持续探索与思考的结晶就是这本遗著《概率论沉思录》(英
文原名是 Probability Theory:
The Logic of Science,直译为《概率论:
科学的逻
辑》),其主要思想是将概率论视为传统亚里士多德逻辑的扩展.
在这种思想框架
下,布尔逻辑只是概率逻辑的一种特殊情形.众所周知,传统数学是以演绎逻辑
为基础的,而概率论却可以作为科学推断(归纳逻辑 + 演绎逻辑)的理论基础.
这样,作为扩展逻辑的概率论就是可以融合归纳推理与演绎推理的统一理论.
有人可能会问:且慢,概率论不是一门数学学科吗?它与科学有何相关?的确,
概率论的公理化是 20 世纪数学方面最重要的进展之一.现代概率论的诞生以柯
尔莫哥洛夫 1933 年的奠基性著作《概率论基础》(Foundations of the Theory of
Probability)的发表为标志.同时,现代统计学也在 20 世纪中如火如荼地发展,
其代表人物是皮尔逊、费希尔、奈曼等.概率统计可以说是机器学习、人工智能
最重要的基础之一.甚至可以说,概率论以及统计学对现代社会的影响无论是在
思想层次还是现实层次,绝不亚于 20 世纪中出现的物理学的相对论与量子力学.
希尔伯特在 1900 年提出了 23 个待解决的数学问题,其中的第 6 个问题是
用数学的公理化方法推演出全部物理原理,包括概率和力学.概率论的公理化问
题在 1933 年由苏联数学家柯尔莫哥洛夫解决.从此,概率论成为一门数学学科.
但是到目前为止,物理学包含力学的公理化工作并未完成,而且很多人相信这可
能永远无法完成,即使完成,也没有什么实际意义.毕竟物理学与数学本质上还
是存在很大差别的:
物理学家使用数学作为工具,却又清楚地知道物理理论的正
确与否不在于逻辑上是否自洽或成立,而在于是否与实际相符.
值得注意的是,概率论公理化之前经过了三个多世纪的发展,如本书作者所
说,主要是以数学物理学家(丹尼尔·伯努利、拉普拉斯、高斯、勒让德、泊松等)
为主体进行的.物理学家(哈罗德·杰弗里斯是个例外)基本上没有参与 20 世
纪初概率论及现代统计学的蓬勃发展进程:
皮尔逊、费希尔有生物学背景,奈曼
主要是数学家.
在作者看来,这主要是由于当时的物理学家都忙于相对论与量子
力学的研究,等到他们感到在这两个领域已经没有太多重要的事情可做,将目光
转向统计学时,却发觉统计学已经被正统统计学家所主宰,但是内部仍然派别林
立,对很多问题没有统一的认识.这在物理学家看来是非常难以接受的:
如果一
门所谓科学的理论在内部都缺乏统一性,我们又该如何相信它的真理性呢?
哈罗德·杰弗里斯在 1939 年完成的《概率论》(Theory of Probability)是贝
叶斯概率论的经典之作.当时,贝叶斯思想还少有人知,遑论得到欣赏和认同,而
正统统计如日中天,该书出版后在很多年之内在主流学术界影响甚微,甚至是受
强烈批评的对象.“贝叶斯主义者”最初几乎是正统统计学家用来嘲讽另一派统计
同行的侮辱性用词.
正统统计学家对于贝叶斯主义者最主要的批评是他们使用的
“先验”具有主观性,缺乏基本的“科学客观性”.作为杰弗里斯思想继承者的杰
恩斯,对杰弗里斯的辩护和费希尔的批评散见于本书很多章节中.贝叶斯统计阵
营内也有几个不同的流派(其主要差别见后文),杰恩斯可以说是客观贝叶斯派
的代表人物.在客观贝叶斯主义者看来,“先验”主要与信息相关,不同人掌握的
信息可能不同,这很正常.
这些不同的“先验信息”是客观存在的,没有任何主
观的成份.而且先验信息无处不在,这对于物理学家来说几乎是显而易见的.费
希尔有句名言是“让数据自己说话(Let the data speak for themselves)”,但是数
据不会自己说话.在面对数据时,物理学家掌握的先验信息至少还有已知的物理
定律,他们会同时利用已知理论模型和数据进行分析和推断,而不是仅仅依靠数
据.杰恩斯认为,有生物学背景的统计学家之所以不认同先验,是因为他们主要
应用统计方法于生物统计问题上,而生物学中本来就没有什么说得出口的理论.
有时被当成数学物理学家的杰恩斯当然对于数学家没有什么成见,正如书中
所说明的,对于柯尔莫哥洛夫的概率论公理系统,作者其实更多的是认同而非反
对.但是他认为,如果采取本书的框架,概率论的应用范围可以比柯尔莫哥洛夫
的概率论更加广泛.现代社会中的很多人对数学家有着莫名的崇拜,普遍认为数
学家是这个世界上最聪明的人.
但是,物理学家一般不属于对数学家顶礼膜拜的
群体,因为有追求的物理系学生所学的数学教材通常与数学系学生所学的教材是
同等难度的,而且他们也会深刻理解科学与数学之间的区别.因此,物理学家一
般不会仰视数学家,而只会平视他们.杰恩斯不认为使用集合论和测度论来重构
概率论有多大的实际意义.
他对于基于测度论的概率论的批评主要是由于现代测
度论引入了实无穷的概念和理论,不谨慎的使用会带来很多悖论.引入测度论的
确增加了概率论的“数学严格性”,但是这不能增进我们对于概率本身的
理解,也
通常无助于实际问题的解决.我希望读者能通过本书掌握概率论在数学之外的另
一种视角:
物理学或者说是科学的视角.
按照这一视角,现在一般被称为“高等
概率论”的内容严格来说应该称为“数学概率论”或者“基于测度论的概率论”才
合适.我之所以强调这一点,是因为发觉有些朋友说想要深入掌握概率论而准备
学习“高等概率论”.如果理解“高等概率论”其实就是“基于测度论的概率论”,
那么在读完初等概率论教材后,为了深入理解概率论的思想以及实际科学推断的
需要,其实更应该花时间研读这本《概率论沉思录》.
虽然贝叶斯统计现在没有像 20 世纪那样受到普遍歧视,但是国内的绝大多
数数理统计学教材主要还是在传统频率派统计的框架下介绍统计学,最多在简单
介绍一下贝叶斯统计后增加“贝叶斯派和传统派的争论仍将长期存在”“先验分布
的客观性常引起争议”“实际贝叶斯方法还有很多困难”等评价,甚至还会加上一
句“贝叶斯统计大体仍处于弱势地位”.
但是实际情况并非如此.贝叶斯统计经过
几代贝叶斯主义者艰苦不懈的努力,到目前为止已经为自己争夺了数理统计学的
至少半壁江山.国际流行的概率论教材《概率导论》(迪米特里·伯特瑟卡斯、
约翰·齐齐克利斯著)中有两章介绍统计推断:
一章是贝叶斯统计推断,另一章是
经典统计推断.该书第 1 章则一开始就指出,作为信念程度的概率解释有时与频
率解释同样必要且有用.
著名的机器学习教材 MLaPP(全名 Machine Learning:
A Probablilistic Perspective,凯文·墨菲著)同样用贝叶斯统计和频率派统计两
章来介绍统计推断,甚至是以贝叶斯视角来概括整个机器学习,只是为了避免意
识形态的争论,而选择了“概率视角”(probablilistic perspective)而非“贝叶
斯视角”(bayesian perpective)的用词.
另一本经典书籍 PRML(全名 Pattern
Recognition and Machine Learning,克里斯托弗·毕晓普著)也被誉为贝叶斯机
器学习的圣经,因为它不仅向我们展示了一切都可以用贝叶斯解释的信仰,并且
对于几乎所有重要经典机器学习算法都描述了其对应贝叶斯版本(贝叶斯线性回
归、贝叶斯逻辑回归、贝叶斯神经网络等).
可见在国际主流概率统计与机器学习
界,贝叶斯统计学并不是还处在“弱势地位”这么简单,而是大家越来越意识到
其重要性,并且会作为与频率派统计并列甚至更重要的地位来做介绍.
杰弗里斯
的《概率论》被称为现代贝叶斯统计的奠基之作,而这本《概率论沉思录》则是
对杰弗里斯概率论的直接继承和发展.
概率观及其世界
概率论在这个时代的重要性无论再怎么强调都不为过.现在所谓的人工智能
革命都可以说是概率革命的延续.前面已经提到,
20
世纪概率论的数学化及概率
统计后续发展的现实重要性绝不亚于相对论与量子力学的出现.按照本书的阐述,
概率论将归纳推理形式化和定量化,使得我们拥有了一个强大而重要的推理工具.
概率论作为数学是独特的,因为它虽然也像其他数学理论一样通过演绎推理来发
展,却可以被看作在描述归纳推理的过程.作为其应用的统计学一般会被认为是