专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【[455星]Markdownify ... ·  17 小时前  
爱可可-爱生活  ·  【[80星]r1-ktransformers ... ·  昨天  
黄建同学  ·  重磅!!!DeepSeek宣布下周连续5天, ... ·  2 天前  
量子位  ·  阶跃Agent生态首曝光:手机汽车IoT机器 ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】理解朴素贝叶斯算法中的拉普拉斯平滑

机器学习研究会  · 公众号  · AI  · 2017-04-14 21:24

正文



点击上方 “机器学习研究会” 可以订阅哦
摘要

转自:自然语言处理与机器学习

在上篇文章中 【学习】带你搞懂朴素贝叶斯分类算法 已经根据朴素贝叶斯算法给出了当一个男生想他的女朋友求婚,女生是否嫁给他的答案!

这个男生的四个特征是长相不帅,性格不好,身高矮,不上进,我们最终得出的结论是女生不嫁! 很多人说这是一道送分题,哈哈哈哈。我们用数学算法也说明了不靠谱是取不到老婆滴!

那么我们再来一个例子, 假如此时另外一对情侣,这对情侣中,男生的四个特征是,长相帅,性格爆好,身高高,上进,那么他的女朋友嫁还是不嫁呢? 可能又会有小伙伴说这是一道送分题,是不是,我们下面用事实说话!


下面通过例子来引出拉普拉斯平滑过程!


还是下面的训练数据:

四个特征集合分别长相{帅,不帅}、性格{爆好,好,不好}、身高{高,中,矮}、上进与否{上进,不上进}


我们此时要求出该男生在四个特征分别是长相帅,性格爆好,身高高,上进的情况下,他对应的嫁与不嫁的概率谁大谁小,从而得出结论!

也就是要比较p(嫁|长相帅,性格爆好,身高高,上进)与p(不嫁|长相帅,性格爆好,身高高,上进)的概率大小。

按照朴素贝叶斯算法公式,我们可以得到如下公式:


由于俩者的分母都是p(长相帅)、p(性格爆好)、p(身高高)、p(上进),那么我们可以不算分母,比较的时候只比较俩个公式分子大小即可。


好的,下面我们开始计算,先计算在四个特征的条件下,嫁的概率。


根据公式我们需要分别计算p(性格爆好|嫁)、p(长相帅|嫁)、p(身高高|嫁)、p(上进|嫁),p(嫁)


首先我们来算p(性格爆好|嫁)=?我们观察训练数据,发现如下:



居然没有一个数据有 爆好 这个特点的,那么p(性格爆好|嫁) = 0,那么我们可以看出问题了,根据公式:


我们最后的p(嫁|长相帅、性格爆好、身高高、上进)由于一项p(性格爆好|嫁)为0,而造成整个概率为0,这显然是错误的。


而这个错误的造成是由于训练量不足,会令分类器质量大大降低。


为了解决这个问题,我们引入Laplace校准( 这就引出了我们的拉普拉斯平滑







请到「今天看啥」查看全文