专栏名称: 机器学习研究组订阅

连接人工智能技术人才和产业人才的交流平台

腾讯AI Lab开源800万中文词的NLP数据集 | 资源

机器学习研究组订阅 · 公众号 · AI · 2018-10-19 20:57

正文

鹅厂开源，+1 again~

又一来自腾讯AI实验室的资源帖。

腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集。

该数据包含800多万中文词汇，相比现有的公开数据集，在覆盖率、新鲜度及准确性上大幅提高。

在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面，腾讯内部效果提升显著。

数据集特点

总体来讲，腾讯AI实验室此次公开的中文词向量数据集包含 800多万中文词汇 ，其中每个词对应一个 200维 的向量。

具体方面，腾讯自称，该数据集着重在3方面进行了提升：

覆盖率（Coverage）：

该词向量数据集包含很多现有公开的词向量数据集所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度（Freshness）：

该数据集包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

在开源前，腾讯内部经历了多次测评，认为该数据集相比于现有的公开数据集，在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集，腾讯AI实验室是如何构建的呢？

他们围绕3方面分享了构建及优化经验：

语料采集：

训练词向量的语料来自腾讯新闻和天天快报的新闻语料，以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合，使得所生成的词向量数据集能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模，也使得词向量数据集的新鲜度大为提升。

词库构建：

除了引入维基百科和百度百科的部分词条之外，还实现了Shi等人于2010年提出的语义扩展算法，可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式，在发现新词的同时计算新词之间的语义相似度。

训练算法：

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

意义

最后，表扬一下鹅厂的开源之举。

目前针对英语环境，工业界和学术界已发布了一些高质量的词向量数据集

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【Brain-to-Text：Meta AI成功从非侵入性脑信号-20250215101029

15 小时前

爱可可-爱生活 · 【[209星]X-R1：低成本训练0.5B R1-Zero模型的-20250214124012

昨天

爱可可-爱生活 · 【[393星]LLPlayer：专为语言学习设计的多功能媒体播放-20250213191119

2 天前

AI前线 · 十多个模型打不过 DeepSeek 一个？奥特曼受不了了：怒将 GPT 和 o系列合并，非思维链模型到头！

2 天前

爱可可-爱生活 · 【一位本科生颠覆了数据科学中存在40年的猜想，证明了在最坏情况下-20250213103506

2 天前

普象工业设计小站 · 【治愈系】2016年最搞笑的动物照全在这里了

8 年前

指尖阅读 · 越懒的女人，越幸福！

7 年前

中国企业家杂志 · 谁最懂男人？身价千亿的女企业家抢答了（有视频有真相）

7 年前

艾奇SEM · 手把手教你今日头条DSP的正确打开方式（内含实战经验）

7 年前

superhealth · 一位普通工人办了张健身卡，背后原因让所有人吃惊！

7 年前