专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
大数据分析和人工智能  ·  假装上班…哈哈 ·  昨天  
人工智能与大数据技术  ·  罗永浩AI初创项目上线;科技巨头大战数据中心 ... ·  2 天前  
数据派THU  ·  Meta、斯坦福等:AI的下一个前沿,正是陶 ... ·  2 天前  
人工智能与大数据技术  ·  苹果 AI 遭遇「滑铁卢」?73% ... ·  4 天前  
数据派THU  ·  Python量化投资实践:基于蒙特卡洛模拟的 ... ·  5 天前  
51好读  ›  专栏  ›  CDA数据分析师

我分析了 6.5W 字的歌词,看到了这样的周杰伦!

CDA数据分析师  · 公众号  · 大数据  · 2017-05-25 18:42

正文

作者  张冬鑫
本文转自知乎,转载需授权


前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。


一、准备歌词素材


歌词选择:杰伦至今的所有专辑(从最开始的到最新的)

由于爬虫木有学会,就只能手动收集歌词。经过一系列的google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。



二、对歌词文件完成分词


这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!



没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。



千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~(>_



三、对分词的结果进行分析


好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 ?(^?^*) )


结论一:杰伦最喜欢的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)



拉了下出现频率 top20的词语,满满的都是文艺、伤感、爱情 :


我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始

我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 ?(^?^*)


结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)



大家应该都听过。


杰伦专门为外婆写了一首歌,其中也就1句歌词提到了外公。


至于爷爷,杰伦也有那首


结论三:杰伦喜欢黑色、白色胜过其他颜色



很符合周董的形象,歌词里高大上的黑色&白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为吧。


结论四:杰伦最喜欢的语气词是 oh~



毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 "哎呦不错哦~" 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。


总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^


注:以上内容纯属胡说八道,如有雷同,纯属巧合。


推荐阅读


【书单】18本数据科学家必读的R语言和Python相关书籍

如何像数据科学家一样思考

北京VS上海,哪座城市人口更多?

我是如何一不小心阻止了勒索病毒的全球蔓延

用python抓取摩拜单车API数据并做可视化分析(源码)

2017年大数据和数据科学的六大发展趋势

你每天要花多少时间在手机上?

初级数据科学家求职时的 3 大必备能力

不可错过的优质深度学习课程

职场 | 数据库面试常问的一些基本概念

听说你最擅长“拖”,你“拖”得过Excel吗?

数据科学优质课程推荐#2:统计入门课程篇

歌手外科和猴姑,大数据告诉你白百何出轨后谁最惨

想学习数据科学?我们整理了一份优质编程入门课程清单

数据科学家在美国仍然是最热门工作的3大原因

一个优秀数据分析师的准则

Python 实现一个火车票查询的工具

干货 | 携程实时用户行为系统实践

数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是...

那些年,写 Python 犯过的错误