专栏名称: AI数据派
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
目录
相关文章推荐
哲学园  ·  物理直觉不再是人类专属?LeCun等新研究揭 ... ·  11 小时前  
哲学园  ·  婆什迦羅一世和他的正弦近似公式 ·  2 天前  
哲学王  ·  一文了解:阿伦特的极权主义理论 ·  3 天前  
51好读  ›  专栏  ›  AI数据派

收藏 | 中文公开聊天语料库及使用方法(附链接)

AI数据派  · 公众号  ·  · 2019-03-13 07:30

正文

来源:专知

本文 约1000字 建议阅读 5分钟

该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。


语料内容


该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。



使用方法


下载语料


网盘链接:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex


将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:


raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...


执行命令即可


python main.py







请到「今天看啥」查看全文