专栏名称: 大数据挖掘DT数据分析

实战数据资源提供。数据实力派社区，手把手带你玩各种数据分析，涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系： hai299014

机器学习算法的R语言实现：朴素贝叶斯分类器

大数据挖掘DT数据分析 · 公众号 · 大数据 · 2017-02-09 22:16

正文

数据挖掘入门与实战公众号： datadw

1、引子

朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法，其中朴素的意思实际上指的是一个假设条件，后面在举例中说明。本人以为，纯粹的数学推导固然有其严密性、逻辑性的特点，但对我等非数学专业的人来说，对每一推导步骤的并非能透彻理解，我将从一个例子入手，类似于应用题的方式，解释朴素贝叶斯分类器，希望能对公式的理解增加形象化的场景。

2、实例

最近“小苹果”很火，我们就以苹果来举例说，假设可以用三个特征来描述一个苹果，分别为“尺寸”、“重量”和“颜色”；其中“尺寸”的取值为小、大，“重量”的取值为轻、重，“颜色”取值为红、绿。对这三个特征描述的苹果中，对苹果的按味道进行分类，可取的值为good、bad。

朴素贝叶斯分类器就要要解决如下一个问题，已知苹果味道取good和bad的概率，那么如果给定一个一组苹果的特征，那么这个苹果味道取good和bad的概率是多少？这是个典型的逆概率的问题。

尺寸（size）大小大大小小
重量（weight）轻重轻轻重轻
颜色（color）红红红绿红绿
味道（taste） good good bad bad bad good

以上给出了6个苹果的特征描述及其口味，那个一个大而重的红苹果，能否估计出它的味道是good还是bad？

这里我们先解释下朴素的含义，朴素就是这样一个假设：描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想，对这个例子来说，这个假设就不成立嘛，大小和重量从直觉上我们都会感到是两个正相关的特征。是的，朴素的假设在实际世界中是较难满足的，但是实际使用中，基于这个假设作出预测的正确率是在一个可接受的范围。

3、基本方法

(P(A|B)) 表示在确定B的情况下，事件A发生的概率，而在实际情况中，我们或许更关心(P(B|A))但是只能直接获得(P(A|B)) ，此时我们需要一个工具可以把(P(A|B)) 和(P(B|A))相互转化，贝叶斯定理就是这样一个公式，下面给出贝叶斯定理：
[P(B|A) = \frac{{P(A|B)P(B)}}{{P(A)}}]

对苹果分类的问题，有三个特征(F = { {f_1},{f_2},{f_3}} )，两种分类(C = { {c_1},{c_2}} )，根据贝叶斯公式有给定特征条件下，特征为({c_i})的概率
[P({c_i}|{f_1}{f_2}{f_3}) = \frac{{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}}{{P({f_1}{f_2}{f_3})}}]
使得上式取得最大值的({c_i})即为分类结果，由于对给定训练集来说，({P({f_1}{f_2}{f_3})})为常数，那么就转为为求
[{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}]
的最大值。

朴素贝叶斯的假设在这里就体现了，由于特征值相互独立，那么上式可以转化为
[P({f_1}|{c_i})P({f_2}|{c_i})P({f_3}|{c_i})P({c_i})]
整个问题就变为求使得上式取最大值的({c_i})，而上式中的每一项都可以从训练集中得到。

最后讨论下Laplace校准，如果某一个特性值在训练集中出现的次数为0，那么以上我们讨论的公式就没有意义了，以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况，但是如果避免不了就需要进行Laplace校准。其实很简单，把所有出现特征出现的次数都加上1，即为Laplace校准。