专栏名称: 大数据挖掘DT数据分析
实战数据资源提供。数据实力派社区,手把手带你玩各种数据分析,涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫。如需发布广告请联系: hai299014
目录
相关文章推荐
数据派THU  ·  NeurIPS ... ·  昨天  
数据派THU  ·  Coconut:基于连续潜在空间推理,提升大 ... ·  3 天前  
大数据分析和人工智能  ·  DeepSeek薪资曝光 ·  5 天前  
软件定义世界(SDX)  ·  史上首次,DeepSeek登顶中美AppSt ... ·  1 周前  
51好读  ›  专栏  ›  大数据挖掘DT数据分析

用Python统计新浪微博各种表情使用频率

大数据挖掘DT数据分析  · 公众号  · 大数据  · 2017-09-13 19:33

正文



大数据挖掘DT数据分析  公众号: datadw


用新浪微博API积累了微博广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条微博里面表情使用情况,统计结构在最后。


无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了。


1、调用新浪JAVA API下载微博广场数据
步骤思路:
初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:


这个不是完整的代码,没有初始化暂停间隔,可以掠过,很简单。





2、数据格式:



要取得数据就是微博内容,先练一下手玩玩。


3、Python处理数据
目标:查看微博用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。


步骤:
$ 读取TXT文件,递归处理每一行
$ 单独提取出微博字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率

$ 把结果写入到文件
注意:Python正则提取中文部分,先解码成unicode编码,再正则提取,表情的标志是[],虽有误差,但无大碍。


代码:
__collection函数是处理函数,返回处理结果(dict)






脚本运行结果:




把结果放到EXCEL里面重新排序,得到如下结果:




人工智能大数据与深度学习

搜索添加微信公众号:weic2c


长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘


长按图片,识别二维码,点关注