专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
人工智能那点事  ·  自导自演炒作偷拍,500万粉丝网红被抓,曾称 ... ·  昨天  
财联社AI daily  ·  关于AI的2025年,AI这样回答 ·  昨天  
财联社AI daily  ·  关于AI的2025年,AI这样回答 ·  昨天  
爱可可-爱生活  ·  [CL]《Chained Tuning ... ·  4 天前  
宝玉xp  ·  //@翻译驴://@刘昕RUC:大爷是好大爷 ... ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】理解朴素贝叶斯算法中的拉普拉斯平滑

机器学习研究会  · 公众号  · AI  · 2017-04-14 21:24

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:自然语言处理与机器学习

在上篇文章中【学习】带你搞懂朴素贝叶斯分类算法已经根据朴素贝叶斯算法给出了当一个男生想他的女朋友求婚,女生是否嫁给他的答案!

这个男生的四个特征是长相不帅,性格不好,身高矮,不上进,我们最终得出的结论是女生不嫁!很多人说这是一道送分题,哈哈哈哈。我们用数学算法也说明了不靠谱是取不到老婆滴!

那么我们再来一个例子,假如此时另外一对情侣,这对情侣中,男生的四个特征是,长相帅,性格爆好,身高高,上进,那么他的女朋友嫁还是不嫁呢?可能又会有小伙伴说这是一道送分题,是不是,我们下面用事实说话!


下面通过例子来引出拉普拉斯平滑过程!


还是下面的训练数据:

四个特征集合分别长相{帅,不帅}、性格{爆好,好,不好}、身高{高,中,矮}、上进与否{上进,不上进}


我们此时要求出该男生在四个特征分别是长相帅,性格爆好,身高高,上进的情况下,他对应的嫁与不嫁的概率谁大谁小,从而得出结论!

也就是要比较p(嫁|长相帅,性格爆好,身高高,上进)与p(不嫁|长相帅,性格爆好,身高高,上进)的概率大小。

按照朴素贝叶斯算法公式,我们可以得到如下公式:


由于俩者的分母都是p(长相帅)、p(性格爆好)、p(身高高)、p(上进),那么我们可以不算分母,比较的时候只比较俩个公式分子大小即可。


好的,下面我们开始计算,先计算在四个特征的条件下,嫁的概率。


根据公式我们需要分别计算p(性格爆好|嫁)、p(长相帅|嫁)、p(身高高|嫁)、p(上进|嫁),p(嫁)


首先我们来算p(性格爆好|嫁)=?我们观察训练数据,发现如下:



居然没有一个数据有爆好这个特点的,那么p(性格爆好|嫁) = 0,那么我们可以看出问题了,根据公式:


我们最后的p(嫁|长相帅、性格爆好、身高高、上进)由于一项p(性格爆好|嫁)为0,而造成整个概率为0,这显然是错误的。


而这个错误的造成是由于训练量不足,会令分类器质量大大降低。


为了解决这个问题,我们引入Laplace校准(这就引出了我们的拉普拉斯平滑),它的思想非常简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。


引入拉普拉斯平滑的公式如下:



其中ajl,代表第j个特征的第l个选择,代表第j个特征的个数,K代表种类的个数。


为1,这也很好理解,加入拉普拉斯平滑之后,避免了出现概率为0的情况,又保证了每个值都在0到1的范围内,又保证了最终和为1的概率性质!


我们可以通过下面例子更加深刻的理解这个公式:(现在我们是加入拉普拉斯平滑


原文链接:

https://mp.weixin.qq.com/s/t2Yt4hmxl1cQJVY8Jgg0jA

“完整内容”请点击【阅读原文】
↓↓↓