专栏名称: 深度学习与神经网络
关注深度学习教育,关注人工智能前沿科技
目录
相关文章推荐
gooood谷德设计网  ·  NOARQ|葡萄牙Trofa市政厅 ·  21 小时前  
gooood谷德设计网  ·  北上广杭等九城招聘:goa大象、时境建筑、S ... ·  21 小时前  
gooood谷德设计网  ·  西安招聘 | ... ·  昨天  
gooood谷德设计网  ·  捷克帕尔杜比采自动磨坊公共空间及GAMPA与 ... ·  21 小时前  
建E室内设计网  ·  建E首发 | 汇龙×靳朝晖设计:时光凝萃 境启顶奢 ·  2 天前  
51好读  ›  专栏  ›  深度学习与神经网络

Chinese Word Vectors:上百种预训练中文词向量

深度学习与神经网络  · 公众号  ·  · 2018-05-21 08:30

正文

Summary:Chinese Word Vectors:上百种预训练中文词向量

翻译:Amusi

来源:

https://github.com/Embedding/Chinese-Word-Vectors



Chinese Word Vectors


这个项目提供了100多个用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。 可以轻松获得具有不同属性的预先训练的向量,并将它们用于后续任务。


此外,我们提供了一个中文类比推理数据集CA8和评估工具包,供用户评估他们的单词向量的质量。


参考

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations , accepted by ACL 2018.


格式

预先训练好的矢量文件是文本格式。 每行包含一个单词和它的向量。 每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二行表示尺寸大小。


除了密集的单词矢量(用SGNS训练)之外,我们还提供稀疏矢量(用PPMI训练)。 它们与liblinear的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。


预训练 Chinese Word Vectors

基础设置


多领域词汇

用不同的表示法,上下文特征和语料库训练的中文单词向量。




*符号是指提供了字符嵌入,因为大部分汉字都是古代汉语中的字。


多种共现( Co-occurrence )信息

开发者发布了在不同的共现(co-occurrence)统计数据上的词向量。目标和上下文向量在相关的论文中一般称为输入和输出向量。

在这一部分中,我们可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。

所有向量都在百度百科上使用 SGNS 训练。


授人以鱼,不如授人以渔。还有少量内容没有翻译,对于 自然语言处理方向 感兴趣的童鞋可以点击文末的“阅读原文”访问Chinese-Word-Vectors,希望对你有所帮助。



--------我是可爱的分割线--------


若喜欢“深度学习与神经网络”推送的文章,请扫描下方二维码关注公众号!







请到「今天看啥」查看全文