专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1555期):多元化奖励的CFG ... ·  3 天前  
宝玉xp  ·  //@刘群MT-to-Death:Jim ... ·  3 天前  
爱可可-爱生活  ·  【mcts-llm:集成了蒙特卡洛树搜索(M ... ·  5 天前  
爱可可-爱生活  ·  Tutor ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】朴素贝叶斯分类实例-单词纠正问题

机器学习研究会  · 公众号  · AI  · 2017-05-02 19:02

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:自然语言处理与机器学习

1  朴素贝叶斯算法


带你搞懂朴素贝叶斯分类算法这篇文章通俗的讲解了朴素贝叶斯算法,通过回忆,我们知道算法公式如下:





2  单词纠正问题



下面我们看一个问题去理解贝叶斯公式及其变形:


现在我们看到用户输入了一个不在字典里的单词,如thew,我们如何去知道用户实际想输入的单词是什么?


我们可以将这个问题抽象成求:




我们现在不妨假设空间有the 和 thaw (为了简化问题,我们的假设空间目前只有the 和thaw)


实际问题中用的入法拼写改正器一般只提取编辑距离为2以内的所有已知单词作为假设空间的假设,这样避免放入所有单词。


但是就算是这的假设,满足的数据量依旧很大,可能有the , they , thaw 等等,所以本文这个问题的假设空间只放入两个元素去讨论(只是为了走完例子,帮助理解,其它原理相同)。


我们现在应用贝叶斯公式,有:



而我们知道,实际上P(他实际输入的单词)是一个定值,因为是已经发生的事实,概率已知,那么我们就可以采用贝叶斯公式的变形:



这里写成:



根据假设空间{ the ,thaw },这里有:



我们就比较P(thaw|thew)与p(the|thew)的概率谁大谁小即可


原文链接:

http://mp.weixin.qq.com/s/dV0SQo1vaggXuKQCjHR9ew

“完整内容”请点击【阅读原文】
↓↓↓