AI科技评论按:
本文作者冬鑫,原文载于作者
知乎专栏
,雷锋网AI科技评论已获授权。
前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。
一、准备歌词素材
歌词选择:杰伦至今的所有专辑(从最开始的
到最新的)
由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。
二、对歌词文件完成分词
这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!
没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。
千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~(>_
三、对分词的结果进行分析
好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 ♪(^∇^*) )
结论一:杰伦最喜欢的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)
拉了下出现频率 top20 的词语,满满的都是文艺、伤感、爱情 :
我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始
我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 ♪(^∇^*)
结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)
大家应该都听过。
杰伦专门为外婆写了一首歌,其中也就1句歌词提到了外公。
至于爷爷,杰伦也有那首
结论三:杰伦喜欢黑色、白色胜过其他颜色
很符合周董的形象,歌词里高大上的黑色&白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为吧。
结论四:杰伦最喜欢的语气词是 oh~
毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 "哎呦不错哦~" 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。
总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^
注:以上内容纯属胡说八道,如有雷同,纯属巧合。
另,头图不是 python 生成,是使用一个国外的网站(wordart)生成的。
文章中使用的分词代码、歌词文本、头图已通过有道云笔记分享(文章末尾有链接),内容如下:
有道云笔记链接:
http://t.cn/RaICFIV
报名 |【2017 AI 最佳雇主】榜单
在人工智能爆发初期的时代背景下,
雷锋网联合旗下人工智能频道
AI科技评论,
携手《环球科学》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单
。
从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。
本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:
2017.4.11-6.1 报名阶段
2017.6.1-7.1 评选阶段
2017.7.7 颁奖晚宴
最终榜单名单由雷锋网
、
AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。
报名方式
如果您有意参加我们的评选活动,可以点击【
阅读原文
】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。
【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。