专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【干货】机器学习算法实现解析——word2vec源码解析

机器学习研究会 · 公众号 · AI · 2017-03-18 18:54

正文

点击上方 “机器学习研究会” 可以订阅哦

摘要

转自：zhiyong_will

在阅读本文之前，建议首先阅读“ 简单易学的机器学习算法——word2vec的算法原理 ”（目前还没发布），掌握如下的几个概念：

有了如上的一些概念，接下来就可以去读word2vec的源码。在源码的解析过程中，对于基础知识部分只会做简单的介绍，而不会做太多的推导，原理部分会给出相应的参考地址。

在wrod2vec工具中，有如下的几个比较重要的概念：

其中CBOW和Skip-Gram是word2vec工具中使用到的两种不同的语言模型，而Hierarchical Softmax和Negative Sampling是对以上的两种模型的具体的优化方法。

在word2vec工具中，主要的工作包括：

对于以上的过程，可以由下图表示：

在接下来的内容中，将针对以上的五个部分，详细分析下在源代码中的实现技巧，以及简单介绍我在读代码的过程中对部分代码的一些思考。

原文链接：

http://blog.csdn.net/google19890102/article/details/51887344#

“完整内容”请点击【阅读原文】

↓↓↓