专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
CDA数据分析师  ·  【面试】月薪35k,5面上岸腾讯数据分析师经验贴 ·  2 天前  
软件定义世界(SDX)  ·  中小企业数字化体系设计 ·  3 天前  
国家数据局  ·  数字中国建设典型案例之三十五 | ... ·  4 天前  
国家数据局  ·  数字中国建设典型案例之三十五 | ... ·  4 天前  
CDA数据分析师  ·  【干货】找工作必看:传统制造业VS互联网数据 ... ·  1 周前  
软件定义世界(SDX)  ·  【PPT】我国工业软件产业发展面临的机遇与挑战 ·  1 周前  
51好读  ›  专栏  ›  大数据文摘

十分钟视频,手把手教你用Python撒情人节狗粮的正确姿势

大数据文摘  · 公众号  · 大数据  · 2017-02-13 06:39

正文

大数据文摘作品 转载具体要求见文末

作者 | 寒小阳 视频后期 | 崔云柯


是的,你们没有猜错,这是一期撒狗粮的手把手教学文章!


刚刚从春节回家被爸妈逼婚的懵逼中回过神来,明天又到了满世界秀恩爱的情人节,各位给女朋友的礼物都准备好了吗?


如果还没有准备,不要慌张,老司机大数据文摘不仅文章有深度,套路也不浅,在情人节前一天推出的这期手把手系列,小阳老师将花10分钟时间,逐步带各位利用Python完成一个技术范儿十足又有点浪漫的情人节礼物:用词云图带她回忆你们聊天记录里的爱情故事。

 

给你一张过去的词云图,看看那时我们的爱情

 

当然,这一切的前提是,你得有一个女朋友,或者,一个聊天频率远超其他人,聊天内容略暧昧的姑娘。


然后,请自行导出你们暧昧阶段、初识阶段、热恋阶段,总之一切充满甜言蜜语期的聊天记录,QQ/微信聊天记录导出方式请自行度娘。

 

好的,一切就绪,坐稳,老司机要上路了。

 

本段视频长度约10 分钟,暂时来不及看视频的同学请直接下拉查看代码和文章。


点击右上角进入大数据文摘公众号后台(非评论区),回复“情人节”获取代码包!

👇戳视频看寒小阳老师手把手教你炮制一份专属礼物!


前期准备工作


实现词云功能之前,我们需要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,我们推荐使用ipython notebook。 在本地电脑环境,anaconda提供了非常便利的安装和部署,他会自动帮你把ipython notebook环境部署好。

词云功能所需的依赖包如下: jieba(分词包) numpy(计算包) codecs(语言代码处理包) pandas(数据分析包) matplotlib(绘图功能包) WordCloud(词云包)


1.引入相关的库包


首先,需要引入词云功能的所有依赖包,具体代码如下:


In [10]:

#coding:utf-8__author__ = 'Hanxiaoyang'import jieba    #分词包import numpy    #numpy计算包import codecs   #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode import pandas   #数据分析包import matplotlib.pyplot as plt from wordcloud import WordCloud#词云包

2.导入相关记录txt文件,分词:


然后读取你和你的另一半一切充满甜言蜜语的聊天记录。本次演示,大数据文摘选取的是《大话西游月光宝盒》中至尊宝和女神紫霞仙子的对话文本(提前准备好文件:大话西游.txt),对文本进行分词处理,形成分词后的词集。


具体代码:

In [11]:

file=codecs.open(u"大话西游.txt",'r')content=file.read()file.close()segment=[]segs=jieba.cut(content) #切词,“么么哒”才能出现for seg in segs:    if len(seg)>1 and seg!='\r\n':        segment.append(seg)

3.去停用词

“多喝热水”和闹嘴的小细节可以在这里抹去


想要生成一个较为理想的词云,分词的内容质量很重要,那么必须要做的一步就是要去除文本中的“噪音”,通常的实现方法是:先定义一个停用词集,然后利用停用词集对上面的文本分词全集进行过滤,最后形成一个有效词集。


这里要给大家一句非常重要的温馨提醒,我们希望每一位同学在处理相关数据时都能秉持公正客观真实的原则,但如果你最终导出的结果与你预期的“甜蜜”记录并不符合,比如出现了“多喝热水”等尴尬的词语,那么在去听用词中,适当的抹去这样的小细节来避免明年一个人过节,也是可以理解的。


具体代码:

In [12]:

words_df=pandas.DataFrame({'segment':segment})words_df.head()stopwords=pandas.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'],encoding="utf8")words_df=words_df[~words_df.segment.isin(stopwords.stopword)]

4.统计词频

情侣对话日常高频词


下面进入到词云的关键一步了:词频统计。我们需要统计有效词集中每个词的出现次数,然后按照次数从多到少进行排序。其中统计使用groupby函数,排序使用sort函数。


代码如下:

In [19]:

words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})words_stat=words_stat.reset_index().sort(columns="计数",ascending=False)words_stat  #打印统计结果

/opt/ds/lib/python2.7/site-packages/ipykernel/__main__.py:2: FutureWarning: sort(columns=....) is deprecated, use sort_values(by=.....)  from ipykernel import kernelapp as app

Out[19]:


segment计数
180紫霞80
193至尊宝52
112悟空18
140月光宝盒7
66嘻嘻6
11上天6
87安排5
184老婆4
60告诉4
173真的4
84姻缘3
85娘子3
21交代3
88宝剑3
89宝盒3
175知不知道3
15不行3
14不用3
98干什么3
177神仙3
137明白3
73多久2
57后悔2
182终于2
69回忆2
170痛苦2
114意中人2
167留下2
165生气2
82姐姐2
.........
121我托1
123我要1
124扔掉1
125找到1
100干成1
97帮个1
62唾骂1
95师傅1
63喂喂1
65嘟嘟声1
67回到1
68回去1
70回来1
71地方1
72夕阳1
74大姐1
75天黑1
76太晚1
77女人1
78女孩子1
79好不好1
80好怪1
81如意郎君1
83姑娘1
86孙悟空1
91家里1
92寂寞1
93小心1
94就象1
227齐天大圣1

228 rows × 2 columns


5.做词云

开启亮瞎眼么么哒模式


最后是词云的点睛之笔了:数据图形化显示。有了强有力的工具包,这些工作都是分分钟就可以搞定。我们使用matplotlib和wordcloud工具来图形化显示上述的词频统计结果。


话不多说,上代码:

In [14]:

%matplotlib inlinewordcloud=WordCloud(font_path="simhei.ttf",background_color="black")wordcloud=wordcloud.fit_words(words_stat.head(1000).itertuples(index=False))plt.imshow(wordcloud)plt.show()


如果你想将生成的图形以本地图片的形式生成并打开显示,可以使用下面的实现代码:


In [15]:

%matplotlibwordcloud=WordCloud(font_path="simhei.ttf",background_color="black")wordcloud=wordcloud.fit_words(words_stat.head(1000).itertuples(index=False))plt.imshow(wordcloud)plt.show()

Using matplotlib backend: TkAgg

6.自定义背景图做词云

让他看到你的心


情人节,又是大话西游这样的经典对白,我们当然还可以把图形呈现玩得再酷炫一些,自定义一个心形图像背景并将词云图形化输出。


实现代码如下:

In [16]:

from scipy.misc import imreadimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGenerator%matplotlib inlinebimg=imread('heart.jpeg')wordcloud=WordCloud(background_color="white",mask=bimg,font_path='simhei.ttf')wordcloud=wordcloud.fit_words(words_stat.head(4000).itertuples(index=False))bimgColors=ImageColorGenerator(bimg)plt.axis("off")plt.imshow(wordcloud.recolor(color_func=bimgColors))plt.show()


当然你也可以选择对你们更有意义的图片,生成你们独一无二的词云图。如果你想将生成的图形以本地图片的形式生成并打开显示,可以使用下面的实现代码:


In [18]:

%matplotlibbimg=imread('heart.jpeg')wordcloud=WordCloud(background_color="white",mask=bimg,font_path='simhei.ttf')wordcloud=wordcloud.fit_words(words_stat.head(39769).itertuples(index=False))bimgColors=ImageColorGenerator(bimg)plt.axis("off")plt.imshow(wordcloud.recolor(color_func=bimgColors))plt.show()

Using matplotlib backend: TkAgg



以上,就是情人节大话西游对话词云的实现过程,所有代码都经过调试,直接可用。 让喜欢数据的你,利用这种方式,为心爱的他/她,带来一份数据感、科技感、炫酷感、新奇感十足的情人节小惊喜吧!


这是本次情人节大数据文摘献给各位的套路,小阳老师只能帮你到这里啦。


当然,看到这里长叹一声、吃狗粮到撑的同学也不要酸楚,猛扫下图的二维码,来大数据文摘的情人节线下活动认识一个可以聊天的ta吧。


也提前祝各位情人节快乐!




关于转载


如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 |bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:[email protected]

往期精彩文章


点击图片阅读文章

手把手教你分析微信群聊记录,识别害群之马