专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
黄建同学  ·  Cursor 101:Cursor 教程和 ... ·  昨天  
黄建同学  ·  这个好玩!Carpentopod,可以自己走 ... ·  3 天前  
宝玉xp  ·  请问这道智力题答案是什么?据说 o1 ... ·  5 天前  
宝玉xp  ·  我用 o1 Preview ... ·  1 周前  
51好读  ›  专栏  ›  机器学习研究会

​ 【推荐】微博终结者爬虫

机器学习研究会  · 公众号  · AI  · 2017-04-15 18:59

正文



点击上方“机器学习研究会”可以订阅哦
摘要
 

转自:jinfagang

关于聊天对话系统我后面会开源一个项目,这个repo目的是基于微博构建一个高质量的对话语料,本项目将继续更进开发,大家快star!!永远开源!

这个项目致力于对抗微博的反爬虫机制,集合众人的力量把微博成千上万的微博评论语料爬取下来并制作成一个开源的高质量中文对话语料,推动中文对话系统的研发。 本系统现已实现:

  • 爬取指定id用户的微博数,关注数,粉丝数,所有微博内容以及所有微博对应的评论;

  • 作者考虑到制作对话系统的可行性以及微博语料的难处理性,爬取过程中,所有微博会保存为可提取的形式,具体可以参照爬取结果保存样例;

  • 本项目不依赖于任何第三方爬取框架,但手动实现了一个多线程库,当爬取多用户时会开启上百条线程工作,爬取速度在每小时百万级别;

  • 本项目最终目的是为了充分利用庞大的微博平台构建一个开源高质量的中文对话系统(据作者所知,很多公司对自己的数据视如珍宝,鄙之);

  • 除此之外,本项目还可以用于指定用户评论分析,比如爬取罗永浩的微博可以分析他第二年锤子手机的销量(牛逼把)

希望更多童鞋们contribute进来,还有很多工作要做,欢迎提交PR!


为人工智能而生

中文语料一直以来备受诟病,没有机构或者组织去建立一些公开的数据集,反观国外,英文语料相当丰富,而且已经做的非常精准。

微博语料作者认为是覆盖最广,最活跃最新鲜的语料,使用之构建对话系统不说模型是否精准,但新鲜的词汇量是肯定有的。


原文链接:

https://github.com/jinfagang/weibo_terminater

“完整内容”请点击【阅读原文】
↓↓↓