专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【Aria训练与评估工具包ATEK:一个加速 ... ·  18 小时前  
爱可可-爱生活  ·  《爱可可微博热门分享(10.20)》 ... ·  2 天前  
宝玉xp  ·  回复@每小痛:据说后端做Java的用Angu ... ·  3 天前  
黄建同学  ·  【2分钟学点RAG - ... ·  5 天前  
爱可可-爱生活  ·  【Awesome O1:收集了与 ... ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

【学习】一个隐马尔科夫模型的应用实例:中文分词

机器学习研究会  · 公众号  · AI  · 2017-04-22 22:49

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:u014365862

什么问题用HMM解决

现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系。


比如天气预测,如果我们知道“晴天,多云,雨天”之间的转换概率,那么如果今天是晴天,我们就可以推断出明天是各种天气的概率,接着后天的天气可以由明天的进行计算。这类问题可以用 Markov 模型来描述。

进一步,如果我们并不知道今天的天气属于什么状况,我们只知道今明后三天的水藻的干燥湿润状态,因为水藻的状态和天气有关,我们想要通过水藻来推测这三天的真正的天气会是什么,这个时候就用 Hidden Markov 模型来描述。


HMM 模型的本质是从观察的参数中获取隐含的参数信息,并且前后之间的特征会存在部分的依赖影响。

我们从如何进行中文分词的角度来理解HMM

根据可观察状态的序列找到一个最可能的隐藏状态序列

中文分词,就是给一个汉语句子作为输入,以“BEMS”组成的序列串作为输出,然后再进行切词,进而得到输入句子的划分。其中,B代表该字是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词。



原文链接:

http://m.blog.csdn.net/article/details?id=54891582

“完整内容”请点击【阅读原文】
↓↓↓