本文系投稿作品 作者 |
斑斑斑比
大数据文摘欢迎各类优质稿件
请联系[email protected]
在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——林夕和黄伟文之手,粉丝界也出了不少文章从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传"林夕引进门,皈依黄伟文"的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。
首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本
,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。
对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(话唠)?
夕爷年均产量63首,歪闷年均产量11首。
可以说夕爷绝对属于天道酬勤自带天赋的努力型选手,这应该也是夕爷在大陆知名度更高的主要原因,生产力带动了市场覆盖率,虽然歪闷没有夕爷那么高产,不过在含金量方面应该是更胜一筹的多金型选手,毕竟分母更小。
接下来是
对他们两人所有的歌词文本通过Python库(主要是jieba、snownlp)作分词、词性处理和情绪分析。
我把每个文本里的"你、我、他"等单字和oh yeah之类的语气词去掉后,用剩下的词语分别生成了两人肖像字符云,上图是夕爷,下图是歪闷(排名不分先后)
"没有"是两人词云里最突出的词,
前段时间有篇文章分析了香港四十年来歌曲关键字的变化,说在90年代后,歌坛关键词从以前的"相思、鸳鸯、我心"切换成了"没有",词云的结果就刚好对应上了这个结论,90年代后,夕爷和歪闷包揽了香港歌坛绝大部分传唱度高的词作,而这两人使用频度最高的词就是"没有"。
夕爷的重点关键词:没有、一个、为何、怎么、什么、我们……
相聚离开都有时候,
没有
什么会永垂不朽——《红豆》
如果对于明天
没有
要求,牵牵手就像旅游——《十年》
没理由,相恋可以
没有
暗涌——《暗涌》
没有
得你的允许我都会爱下去——《钟无艳》
一百年后
没有
你也没有我——《百年孤寂》
歪闷的重点关键词:没有、一个、如何、什么、可以、为何……
问我有
没有
,确实也
没有
,一直躲避的借口,非什么大仇——《最佳损友》
其实
没有
一种安稳快乐永远也不差——《喜帖街》
没有
心别再拖,好心一早放开我——《好心分手》
我
没有
温柔,唯独有这点英勇——《勇》
笑我这个毫无办法管束的野孩子,连
没
有
幸福都不介意——《野孩子》
下图分别是夕爷和歪闷的词性使用频度
从词性来看两人惯用的前9招几乎是一模一样的:动词>名词>副词>形容词>代词>数词
>
连词>人名
>时间词
。
一直到地名、其他名动词和方位词等才开始有所差别。
为了看两人具体用词的差别,我对动词,名词等常用词接着做细分,上图夕爷,下图歪闷
两人动词排名靠前的也很接近:没有、得到、需要,知道。在没有之后,有"需要",想"得到",也有领会("知道"),
区别似乎是夕爷的在没有之后是"不会""恋爱"还念着"拥抱"("靠拥抱亦难任你拥有"——《富士山下》),歪闷的是"继续""恋爱"但是"害怕""没法"子("害怕一直也再没法恋爱"——《耿耿于怀》)。
再看看名词方面,依然上图夕爷,下图歪闷
两人一起提到最多的就是"世界",还有"情人"、"眼泪"、"时间",有情两个人就是世界,没有情世界就只剩一个人。
世界
将我包围,誓死都一起——《飞女正传》
一个人失眠,全
世界
失眠——《全世界失眠》
这个
世界
最坏罪名,叫太易动情,但我喜欢这罪名——《无人之境》
被
世界
遗弃不可怕,喜欢你有时还可怕——《垃圾》
相对夕爷念叨的"伴侣"(我爱的人不爱我),歪闷有一个比较对立的词是"无人"(有谁来爱我)
我信我有这一日,
伴侣
肯专注待我——《姊妹》
爱若能够永不失去,何以你今天竟想找寻
伴侣
——《人来人往》
有人问我,我就会讲,但是
无人
来——《浮夸》
要是可爱,为何
无人
爱我——《可人儿》
接着是形容词,上图夕爷,下图歪闷
"快乐"、"幸福"、"寂寞"占比最高,只是夕爷的寂寞似乎更多。然后除了一些快乐寂寞类的抒情形容词,歪闷还多出了一些像"顽强"、"有趣"、"无聊"不那么主流的词,当然从夕爷年产63首的勤奋劲看对"无聊"的青睐也应该要少的多。《浮夸》如歪闷当然要"着最闪的衫",要"有趣"不要"无聊"。
前两图夕爷,后两图歪闷
夕爷是"过去">"现在">"未来"
歪闷是"现在">"过去">"未来"
两人似乎都不怎么喜欢展望未来,区别是夕爷更缅怀过去:
还记得当天旅馆的门牌,还留住笑着离开的神态——《约定》