专栏名称: 大数据挖掘DT数据分析

实战数据资源提供。数据实力派社区，手把手带你玩各种数据分析，涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系： hai299014

目录

相关文章推荐

数据派THU · NeurIPS ... · 昨天

数据派THU · Coconut:基于连续潜在空间推理,提升大 ... · 3 天前

大数据分析和人工智能 · DeepSeek薪资曝光 · 5 天前

数据派THU · 大数据系统软件国家工程研究中心给大家拜年啦！ · 6 天前

软件定义世界（SDX） · 史上首次，DeepSeek登顶中美AppSt ... · 1 周前

51好读 › 专栏 › 大数据挖掘DT数据分析

用Python统计新浪微博各种表情使用频率

大数据挖掘DT数据分析 · 公众号 · 大数据 · 2017-09-13 19:33

正文

大数据挖掘DT数据分析公众号： datadw

用新浪微博API积累了微博广场的1.4万条数据，我选择了21个字段输出为TXT文件，想用Python稍微处理一下，统计一下这1.4万条微博里面表情使用情况，统计结构在最后。

无聊的时候用了下新浪JAVA版的API，对JAVA还不熟悉，但是稍微改一下还是没问题的，数据保存为TXT文件，再用Python处理，JAVA部分很简单，Python部分只涉及到表情的正则提取，都不好意思写出来了。

1、调用新浪JAVA API下载微博广场数据
步骤思路：
初始化API的Weibo类，设置Token后，设置下载间隔，然后重复调用getPublicTimeline()函数就可以了，下面是主要类的代码：

这个不是完整的代码，没有初始化暂停间隔，可以掠过，很简单。

2、数据格式：

要取得数据就是微博内容，先练一下手玩玩。

3、Python处理数据
目标：查看微博用户表情使用情况，暂时只分性别，如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。

步骤：
$ 读取TXT文件，递归处理每一行
$ 单独提取出微博字段，正则提取表情字段，同时把性别提取出来，放到一个dict里面，dict的格式是：表情/女性使用频率/男性使用频率，递归处理，累积频率

$ 把结果写入到文件
注意：Python正则提取中文部分，先解码成unicode编码，再正则提取，表情的标志是[]，虽有误差，但无大碍。

代码：
__collection函数是处理函数，返回处理结果(dict)

脚本运行结果：

把结果放到EXCEL里面重新排序，得到如下结果：

人工智能大数据与深度学习

搜索添加微信公众号：weic2c

长按图片，识别二维码，点关注

大数据挖掘DT数据分析

搜索添加微信公众号：datadw

教你机器学习，教你数据挖掘

长按图片，识别二维码，点关注

推荐文章

数据派THU · NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

昨天

数据派THU · Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

3 天前

大数据分析和人工智能 · DeepSeek薪资曝光

5 天前

数据派THU · 大数据系统软件国家工程研究中心给大家拜年啦！

6 天前

软件定义世界（SDX） · 史上首次，DeepSeek登顶中美AppStore！NYU教授：全球「AI霸权」之争已结束

1 周前

她刊 · 精致女人必备的收纳大法，能玩一整年

8 年前

Cocoa开发者社区 · 为什么穷人要学编程？

8 年前

基督徒今日QT灵修 · 【QT灵修路加福音】 3.31 礼拜五：《让耶稣作“主”的心服侍人的“仆人”之心》（音频版）

7 年前

父母必读 · 我发现我怀孕了，给老公打电话，他正在坐地铁，听完电话沉默了两秒.....

7 年前

FWMA · 来条开衩裙帮你PS出摩天大长腿！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!