出自统计之都 原文地址:http://cos.name/2013/01/story-of-normal-distribution-1
更多正态分布的介绍,参见
正态分布的前世今生(1)
正态分布的前世今生(2)
正态分布的前世今生(3)
七、正态魅影
每个人都相信它:实验工作者认为它是一个数学定理,数学研究者认为他是一个经验公式。
——亨利·庞加莱
如果说,充斥着偶然性的世界是一个纷乱的世界,那么,正态分布为这个纷乱的世界建立了一定的秩序,使得偶然性现象在数量上被计算和预测成为可能。杰恩斯(E.T.Jaynes)在《Probability Theory: the Logic ofScience》提出了两个问题
· 1.为什么正态分布被如此广泛的使用?
· 2.为什么正态分布在实践使用中非常的成功?
Jaynes指出,正态分布在实践中被广泛地成功应用,主要是因为正态分布具有在数学上的多种稳定性质,这些性质包括:
· 两个正态分布密度的乘积还是正态分布
· 两个正态分布密度的卷积还是正态分布,也就是两个正态分布的和还是正态分布
· 正态分布N(0,σ2)的傅立叶变换还是正态分布
· 中心极限定理保证了多个随机变量的求和效应将导致正态分布
· 正态分布和其它具有相同方差的概率分布相比,具有最大熵
前三个性质说明了正态分布一旦形成,就容易保持该形态的稳定,Landon对于正态分布的推导也表明了,正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明,其它的概率分布在各种的操作之下容易越来越靠近正态分布。正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作,如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免地增加概率分布的信息熵,这将导致概率分布向正态分布靠近。
正由于正态分布的稳定性质,使得它像一个黑洞一样处于一个中心的位置,其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,Jaynes把它描述为概率分布中重力现象(gravitatingphenomenon)。
我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一。Jaynes认为还有一个重要的原因是正态分布的最大熵性质。在很多时候我们并不知道数据的真实分布是什么,但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息量。因此按照最大熵原理,我们应该选择在给定的知识的限制下,选择熵最大的概率分布,而这就恰好是正态分布。因此按照最大熵的原理,即便数据的真实分布不是正态分布,由于我们对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,那这时候正态分布就是最佳的选择。
当然正态分布还有更多令人着迷的数学性质,我们可以欣赏一下:
· 二项分布B(n,p)在n很大逼近正态分布N(np,np(1−p))
· 泊松分布Poisson(λ)在λ较大时逼近正态分布N(λ,λ)
· χ2(n)在n很大的时候接近正态分布N(n,2n)
· t分布在n很大时接近标准正态分布N(0,1)
· 正态分布的共轭分布还是正态分布
· 几乎所有的极大似然估计在样本量n增大的时候都趋近于正态分布
· Cramer分解定理(之前介绍过):如果X,Y是独立的随机变量,且S=X+Y是正态分布,那么X,Y也是正态分布
· 如果X,Y独立且满足正态分布N(μ,σ2),那么X+Y,X−Y独立且同分布,而正态分布是唯一满足这一性质的概率分布
· 对于两个正态分布X,Y,如果X,Y不相关则意味着X,Y独立,而正态分布是唯一满足这一性质的概率分布
八、大道至简,大美天成
To see a world in a grain of sand,
And a heaven in a wild flower,
Hold infinity in the palm of your hand,
And eternity in an hour.
算术平均X¯=X1+X2+⋯+Xnn,极其简单而朴素的一个式子,被人们使用了千百年,在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。中心极限定理在1773年被棣莫弗偶然邂逅的时候,它只是一粒普通的沙子,两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断地被概率学家们精雕细琢,逐渐发展成为现代概率论的璀璨明珠。而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。一沙一世界,一花一天国,算术平均或许只是一粒沙子,正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。
高尔顿对正态分布非常推崇,1886年在人类学研究所的就职演讲中他说过一段著名的话:“我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多,无政府状态越显现,它就统治得越完美。它是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时,那么总是有一个始料不及的美妙规律潜伏在其中。”
概率学家Kac在他的自述传记《机遇之谜》中描述他与正态分布的渊源:“我接触到正态分布之后马上被它深深吸引,我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活的一部分。”另一位概率学家Loeve说:“如果我们要抽取列维的概率中心思想,那我们可以这样说,自从1919年以后,列维研究的主题曲就是正态分布,他一而再再而三地以它为出发点,并且坚决的又回到它....他是带着随机时钟沿着随机过程的样本路径作旅行的人。”美国国家标准局的顾问W.J.Youden用如下一段排列为正态曲线形状的文字来高度评价正态分布,意思是说:误差的正态分布规律在人类的经验中具有“鹤立鸡群”的地位,它在物理、社会科学、医学、农业、工程等诸多领域都充当了研究的指南,在实验和数据观测的解读中是不可或缺的工具。
几乎所有的人都或多或少地接触数学,虽然各自的目的不同,对数学的感觉也不同。工程师、科学家们使用数学是因为它简洁而实用,数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家在实践广泛应用,又令众多的数学家为之魂牵梦绕,在数学的世界里也并不多见。我在读研究生的时候,经常逛北大未名BBS的数学板,有一个叫ukim的著名写手在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩,这些故事在喜欢数学的人群中也流传广泛。最后一个八卦是关于菲尔兹奖得主法国数学家R.Thom的,它曾经令无数人感动,我也借用来作为我对正态分布的八卦的结语:
在一次采访当中,作为数学家的Thom同两位古人类学家讨论问题。谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出鲜美的肉食。而托姆(Thom)说,因为夜幕来临之际,火光摇曳妩媚,灿烂多姿,是最美最美的....
九、推荐阅读
在终极的分析中,一切知识都是历史
在抽象的意义下,一切科学都是数学
在理性的基础上,所有的判断都是统计学
—C.R.Rao
附:正态分布的维基百科(部分)
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:
则其概率密度函数为
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
概要
正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。尽管这些现象的根本原因经常是未知的, 理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布(在R.N.Bracewell的Fourier transform and its application中可以找到一种简单的证明)。正态分布出现在许多区域统计:例如, 采样分布均值是近似地正态的,既使被采样的样本总体并不服从正态分布。另外,常态分布信息熵在所有的已知均值及方差的分布中最大,这使得它作为一种均值以及方差已知的分布的自然选择。正态分布是在统计以及许多统计测试中最广泛应用的一类分布。在概率论,正态分布是几种连续以及离散分布的极限分布。
历史
常态分布最早是亚伯拉罕·棣莫弗在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。
拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。
“钟形曲线”这个名字可以追溯到Jouffret他在1872年首次提出这个术语"钟形曲面",用来指代二元正态分布(bivariate normal)。正态分布这个名字还被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分布独立的使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是正态的。(请参考下面的“实例”)
这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。
热经典文章推荐:
矩阵的秩与行列式的几何意义
微信红包实现原理猜想