Part 1: 本文解决的问题:
我在有这样的一个数据集,里面存放了人们对近期播放电影的评价,当然评价也就分成两部分,好评和差评。我们想利用这些数据训练一个模型,然后可以自动的对影评做出判断,到底是好评还是差评,差评的话,那么我们赶紧删掉它,哈哈。
好吧,这就是自然语言处理领域的基本问题:文本分类。文本分类在我们的日常生活中有非常多的应用,最有名的当属垃圾邮件过滤啦。我们肯定希望不要受到垃圾邮件,但是我们更不希望正常的邮件被当做垃圾邮件过滤掉了。这对我们分类的精度提出了很高的要求。
Part 2:本文的结构
数据来源以及含义
贝叶斯公式的简单介绍
朴素贝叶斯分类器代码编写
划分测试数据和训练数据,计算分类精度
使用sklearn自带的朴素贝叶斯分类器,计算分类精度
比较手写的分类器和sklearn自带的分类器的优点和缺点
参考资料和引用
Part 3 :数据来源以及含义
本文所用的测试数据和训练数据都是来源于康奈尔大学网站的2M影评数据集。下载地址。里面共计有1400条影评,700条好评,700条差评,作者已经为我们分好了类。
Part 4: 代码编写
Part4.1:文档和单词
原文链接:
http://mp.weixin.qq.com/s/hBkMWKNz-ktnjWSsZDNH-Q