专栏名称: 超级数学建模
全国首家专业数学建模自媒体,提供数模学习的第一手资料。该平台由多名企业资深KDD专家及国际、国家数模竞赛一等奖得主维护,敬请关注!
目录
相关文章推荐
51好读  ›  专栏  ›  超级数学建模

5分钟让你了解什么是极大似然估计

超级数学建模  · 公众号  · 数学  · 2017-05-11 22:23

正文

存在即合理

所见即真实


很久很久以前,有位漂亮的模友希望超模君介绍一下极大似然估计法:



在数模的世界里,女生总是优先的 (各位模友,你们觉得呢)


今天,超模君就要讲讲 极大似然估计 ,不过在讲它之前,京西大旅馆好像又发生了一些事情:

在一个周末, 小天跟着 刘强西去 “查房” ,刚刚转角就看到一个身影闪进了最尽头的那一间房,什么都没看清,只能确定头发是长的。


小天就问强西:“咦,刚才那一身影消失得这么快,我都没看清是男是女。。。”


刘强西很淡定地回答:“我猜肯定是一位女房客。”


小天一脸疑惑:“你刚才看清了?”


刘强西:“没有,但是由ta是长头发可推断出 ta是女的 。”


其实在没做性别鉴定之前 (科学要认真对待) ,这位房客有可能是男的,也有可能是女的。


不过从我们已有的经验判断,女性长头发的可能性为大约为 0.9 ,而男性长头发的可能性只有不到 0.05 (另外的0.05各位模友可以猜猜)


就凭借这种常识,刘强西猜这位房客是女性。而刘强西这种 基于可能性最大的猜测,就是极大似然估计的思想。



没明白怎么回事,那就继续往下看:


极大似然估计方法 (Maximum Likelihood Estimate,MLE) 也称为最大概似估计或最大似然估计,是参数估计的一种很重要的方法。早在1821年,高斯就提出了这个思想,但是这个方法通常被认为是英国统计学家 罗纳德·费雪 R.A.Fisher 的功劳。


一位几乎独自建立现代统计科学的天才—— 费雪


原来,在1922年,费雪发表了一篇论文《关于理论统计的数学基础》,给出了“ 极大似然估计法 ”这一名称,并且详细探讨了这个方法的一些性质。


极大似然,其英文 Maximum Likelihood原意就是 “看起来最像” ,而这个“看起来最像”的方式却成了我们判断的重要标准。


那我们举个例子 (大家醒醒,这是本次考试的重点)


现在有一个不透明的布袋,里面盛放着许多个 白球 黑球 ,但是不知道数目和两种颜色球的比例。在不能把袋中的球全部拿出来数的情况下,我们该如何知道 袋中白球和黑球的比例呢?


此时小天举手:放在这道题,让我来。

小天每次随机从袋中拿一个球出来,记下球的颜色,然后将拿出来的球放回袋中。如此进行了100次,我们记录到有70次拿出来的是白球。


那么,请问袋中白球所占的比例最有可能是多少?



一看就知道是70%啦!不要问我为什么,这是常识。。。


看来这不止是一道送分题,也是一道送命题。超模君都说今天要讲 极大似然法 ,你竟然回答“常识”。


算了,超模君还是认真先把问题讲完。


我们假设袋中白球的比例是 p ,那么黑球的比例就是 1-p 。而每抽一个球出来,在记录完颜色之后,我们把抽出的球放回了袋中并摇匀:

因此每次抽出来的球的颜色这一事件 相互独立并且服从同一分布 (即期望和方差相同)


事实上,p是有很多种分布的。而根据我们所谓的常识:在这100次抽取的过程中,出现了70次是白球,那我们肯定不会认为白球:黑球 = 5:5 ,而是倾向于认为 白球:黑球 = 7:3


现在,我们把一次抽出来球的颜色称为一次抽样。而在上面的题目的在100次抽样中,我们将70次是白球,30次是黑球的概率记为 P(样本结果 | M) ,每次抽出来的球是白色的概率记为p。如果第一次抽样的结果记为x1,第二次抽样的结果记为x2,……那么样本结果= (x1,x2,...,x100)。于是


P(样本结果 | M)
= P(x1,x2,...,x100|M)
= P(x1|M)P(x2|M)...P(x100|M)
= p^70(1-p)^30


显然,当p=0或者1时,P(样本结果|M)=0,因此在p∈(0,1),P(样本结果|M)会有一个 极大值 (或极小值)


而极大似然法就是 令样本出现的概率最大 ,进而估计整体的模型参数。


那么,p在取什么值的时候, P(样本结果|M) 的值最大呢?


很简单,只需 将p^70(1-p)^30对p求导,并令其等于零 ,即



于是我们便可以得到 p=0.7 ,即白球:黑球=7:3。


这一次你们的 常识 没错。


不知各位模友还记不记得概论论课程中病毒感染的案例(今天重新温习一下):

假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。


现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?


根据极大似然法,如果一个人感染病毒,95%的测试结果会为阳性;而如果这个人没有感染病毒,只有2%的测试结果会为阳性,所以这个人应该是已经感染病毒了。


不过,在极大似然法中,由于只考虑了由一个模型产生一个已知数据的概率,而没有考虑模型本身的概率,尤其是在数据量比较小的时候,误差就会比较大,估计的结果难以让人信服。


而这个时候,就应该用到贝叶斯方法了( 传送门 )。


表弟表妹爱学习及十分钟学习列:

虚数 到底有什么意义?从 i 说起

花了10分钟,终于明白 矩阵的逆 到底有什么用

为什么会有矩阵这东西, 矩阵 到底有什么用







请到「今天看啥」查看全文