专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  今日推介(第1631期):用显性工作记忆改善 ... ·  昨天  
人工智能那点事  ·  担心的事发生了!可可西里“网红狼”疑被轧死, ... ·  2 天前  
爱可可-爱生活  ·  “语言的问题,本质上都是思维的问题。” ... ·  2 天前  
爱可可-爱生活  ·  [IR] Large Language ... ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】完整手写一个朴素贝叶斯分类器,完成文本分类

机器学习研究会  · 公众号  · AI  · 2017-04-04 21:53

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:数据挖掘入门与实战

Part 1: 本文解决的问题:
我在有这样的一个数据集,里面存放了人们对近期播放电影的评价,当然评价也就分成两部分,好评和差评。我们想利用这些数据训练一个模型,然后可以自动的对影评做出判断,到底是好评还是差评,差评的话,那么我们赶紧删掉它,哈哈。
好吧,这就是自然语言处理领域的基本问题:文本分类。文本分类在我们的日常生活中有非常多的应用,最有名的当属垃圾邮件过滤啦。我们肯定希望不要受到垃圾邮件,但是我们更不希望正常的邮件被当做垃圾邮件过滤掉了。这对我们分类的精度提出了很高的要求。


Part 2:本文的结构

    数据来源以及含义
    贝叶斯公式的简单介绍
    朴素贝叶斯分类器代码编写
    划分测试数据和训练数据,计算分类精度
    使用sklearn自带的朴素贝叶斯分类器,计算分类精度
    比较手写的分类器和sklearn自带的分类器的优点和缺点
    参考资料和引用

Part 3 :数据来源以及含义

本文所用的测试数据和训练数据都是来源于康奈尔大学网站的2M影评数据集。下载地址。里面共计有1400条影评,700条好评,700条差评,作者已经为我们分好了类。


Part 4: 代码编写
Part4.1:文档和单词


原文链接:

http://mp.weixin.qq.com/s/hBkMWKNz-ktnjWSsZDNH-Q

“完整内容”请点击【阅读原文】
↓↓↓