专栏名称: 超级数学建模
全国首家专业数学建模自媒体,提供数模学习的第一手资料。该平台由多名企业资深KDD专家及国际、国家数模竞赛一等奖得主维护,敬请关注!
目录
相关文章推荐
超级数学建模  ·  用抗-196℃宇航服材料,造出一条「防寒裤」 ... ·  3 天前  
超级数学建模  ·  老公出轨了,看他聊天记录前面的还删了... ·  4 天前  
超级数学建模  ·  限时领 | 儿童创意美术节目 ... ·  6 天前  
51好读  ›  专栏  ›  超级数学建模

5分钟让你了解什么是极大似然估计

超级数学建模  · 公众号  · 数学  · 2017-05-11 22:23

正文

存在即合理

所见即真实


很久很久以前,有位漂亮的模友希望超模君介绍一下极大似然估计法:



在数模的世界里,女生总是优先的(各位模友,你们觉得呢)


今天,超模君就要讲讲极大似然估计,不过在讲它之前,京西大旅馆好像又发生了一些事情:

在一个周末,小天跟着刘强西去“查房”,刚刚转角就看到一个身影闪进了最尽头的那一间房,什么都没看清,只能确定头发是长的。


小天就问强西:“咦,刚才那一身影消失得这么快,我都没看清是男是女。。。”


刘强西很淡定地回答:“我猜肯定是一位女房客。”


小天一脸疑惑:“你刚才看清了?”


刘强西:“没有,但是由ta是长头发可推断出ta是女的。”


其实在没做性别鉴定之前(科学要认真对待),这位房客有可能是男的,也有可能是女的。


不过从我们已有的经验判断,女性长头发的可能性为大约为0.9,而男性长头发的可能性只有不到0.05(另外的0.05各位模友可以猜猜)


就凭借这种常识,刘强西猜这位房客是女性。而刘强西这种基于可能性最大的猜测,就是极大似然估计的思想。



没明白怎么回事,那就继续往下看:


极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是参数估计的一种很重要的方法。早在1821年,高斯就提出了这个思想,但是这个方法通常被认为是英国统计学家罗纳德·费雪R.A.Fisher的功劳。


一位几乎独自建立现代统计科学的天才——费雪


原来,在1922年,费雪发表了一篇论文《关于理论统计的数学基础》,给出了“极大似然估计法”这一名称,并且详细探讨了这个方法的一些性质。


极大似然,其英文Maximum Likelihood原意就是“看起来最像”,而这个“看起来最像”的方式却成了我们判断的重要标准。


那我们举个例子(大家醒醒,这是本次考试的重点)


现在有一个不透明的布袋,里面盛放着许多个白球黑球,但是不知道数目和两种颜色球的比例。在不能把袋中的球全部拿出来数的情况下,我们该如何知道袋中白球和黑球的比例呢?


此时小天举手:放在这道题,让我来。

小天每次随机从袋中拿一个球出来,记下球的颜色,然后将拿出来的球放回袋中。如此进行了100次,我们记录到有70次拿出来的是白球。


那么,请问袋中白球所占的比例最有可能是多少?



一看就知道是70%啦!不要问我为什么,这是常识。。。


看来这不止是一道送分题,也是一道送命题。超模君都说今天要讲极大似然法,你竟然回答“常识”。


算了,超模君还是认真先把问题讲完。


我们假设袋中白球的比例是p,那么黑球的比例就是1-p。而每抽一个球出来,在记录完颜色之后,我们把抽出的球放回了袋中并摇匀:

因此每次抽出来的球的颜色这一事件相互独立并且服从同一分布(即期望和方差相同)


事实上,p是有很多种分布的。而根据我们所谓的常识:在这100次抽取的过程中,出现了70次是白球,那我们肯定不会认为白球:黑球 = 5:5 ,而是倾向于认为白球:黑球 = 7:3


现在,我们把一次抽出来球的颜色称为一次抽样。而在上面的题目的在100次抽样中,我们将70次是白球,30次是黑球的概率记为P(样本结果 | M),每次抽出来的球是白色的概率记为p。如果第一次抽样的结果记为x1,第二次抽样的结果记为x2,……那么样本结果= (x1,x2,...,x100)。于是


P(样本结果 | M)
= P(x1,x2,...,x100|M)
= P(x1|M)P(x2|M)...P(x100|M)
= p^70(1-p)^30


显然,当p=0或者1时,P(样本结果|M)=0,因此在p∈(0,1),P(样本结果|M)会有一个极大值(或极小值)


而极大似然法就是令样本出现的概率最大,进而估计整体的模型参数。


那么,p在取什么值的时候,P(样本结果|M)的值最大呢?


很简单,只需将p^70(1-p)^30对p求导,并令其等于零,即



于是我们便可以得到p=0.7,即白球:黑球=7:3。


这一次你们的常识没错。


不知各位模友还记不记得概论论课程中病毒感染的案例(今天重新温习一下):

假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。


现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?


根据极大似然法,如果一个人感染病毒,95%的测试结果会为阳性;而如果这个人没有感染病毒,只有2%的测试结果会为阳性,所以这个人应该是已经感染病毒了。


不过,在极大似然法中,由于只考虑了由一个模型产生一个已知数据的概率,而没有考虑模型本身的概率,尤其是在数据量比较小的时候,误差就会比较大,估计的结果难以让人信服。


而这个时候,就应该用到贝叶斯方法了(传送门)。


表弟表妹爱学习及十分钟学习列:

虚数到底有什么意义?从 i 说起

花了10分钟,终于明白矩阵的逆到底有什么用

为什么会有矩阵这东西,矩阵到底有什么用

如何让5岁表弟知道什么是行列式

如何向5岁小孩解释什么是支持向量机(SVM)

如何让8岁表妹快速了解傅立叶变换

如何让10岁表姐了解什么是勒贝格积分

如何让10岁的表弟也能理解贝叶斯公式


如何让11岁的表妹了解三角函数的原理

如何让15岁表弟了解数据分析,成为新一代的程序员


本文由超级数学建模编辑整理

部分资料来源于网络

转载请在公众号中,回复“转载”


-----这里是数学思维的聚集地------

超级数学建模”(微信号supermodeling),每天学一点小知识,轻松了解各种思维,做个好玩的理性派。30万数学精英都在关注!

超级数学建模官方旗舰店》已上线,赶紧来团!