Summary:Chinese Word Vectors:上百种预训练中文词向量
翻译:Amusi
来源:
https://github.com/Embedding/Chinese-Word-Vectors
Chinese Word Vectors
这个项目提供了100多个用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。 可以轻松获得具有不同属性的预先训练的向量,并将它们用于后续任务。
此外,我们提供了一个中文类比推理数据集CA8和评估工具包,供用户评估他们的单词向量的质量。
参考
Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du,
Analogical Reasoning on Chinese Morphological and Semantic Relations
, accepted by ACL 2018.
格式
预先训练好的矢量文件是文本格式。 每行包含一个单词和它的向量。 每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二行表示尺寸大小。
除了密集的单词矢量(用SGNS训练)之外,我们还提供稀疏矢量(用PPMI训练)。 它们与liblinear的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。
预训练 Chinese Word Vectors
基础设置
多领域词汇
用不同的表示法,上下文特征和语料库训练的中文单词向量。
*符号是指提供了字符嵌入,因为大部分汉字都是古代汉语中的字。
多种共现(
Co-occurrence
)信息
开发者发布了在不同的共现(co-occurrence)统计数据上的词向量。目标和上下文向量在相关的论文中一般称为输入和输出向量。
在这一部分中,我们可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。
所有向量都在百度百科上使用 SGNS 训练。
授人以鱼,不如授人以渔。还有少量内容没有翻译,对于
自然语言处理方向
感兴趣的童鞋可以点击文末的“阅读原文”访问Chinese-Word-Vectors,希望对你有所帮助。
--------我是可爱的分割线--------
若喜欢“深度学习与神经网络”推送的文章,请扫描下方二维码关注公众号!