专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
玉树芝兰  ·  低成本反思式大模型能给你的 AI ... ·  昨天  
大数据文摘  ·  中国首次!高文院士获得 IEEE ... ·  3 天前  
数据派THU  ·  大数据能力提升项目|学生成果展系列之一 ·  3 天前  
数据法盟  ·  我国将健全企业数据收益分配机制 ·  2 天前  
数据法盟  ·  我国将健全企业数据收益分配机制 ·  2 天前  
天池大数据科研平台  ·  一行代码,我优化掉了1G内存占用 ·  3 天前  
51好读  ›  专栏  ›  大数据文摘

这四十年来的香港歌坛在唱些什么,“南中国听歌最多”的数据分析师带你一探究竟

大数据文摘  · 公众号  · 大数据  · 2017-02-25 07:50

正文

本文系投稿作品 投稿邮箱[email protected]

作者|唔好动,一个以写代码为生的填词人


做大数据这行,很容易就会被贴上“闷骚”“无趣”的标签。


但是今天这篇文章的作者“唔好动”,就是一位专注技术,同时又喜欢音乐的“文艺青年”。下面让他用专业的大数据分析方法,带大家一探究竟:这半个世纪的香港歌坛,到底都在唱些什么?


作为一个热爱音乐的广东仔,我从儿时的数码暴龙,听到现在的麦浚龙,见证了香港歌坛近二十年兴衰。不管你是不是广东人,相信广东歌在很多人生命中都占据着不可或缺的一席地。


那么,那些年我们一起听过的港式流行歌,到底在唱些什么呢?作为一个专业的数据分析师,闲来做了一些歌词文本分析来探讨这个有趣的小问题。


一、分析手段介绍


Step1 定义“那些年”和 “港式流行歌”


“那些年”

:为了凸显港乐发展变化的轨迹,我将“那些年”定义为1970年到2010年,共40年,并以10年作为一个区间(年代),分别分析,以便对比。2010年后的歌就不纳入研究范畴,一来还没到十年,二来年代太近,最多只能算“这些年”。


“港式流行歌”:本着以人为本的思想,我先找到各个年代的代表歌手,再用爬虫[1]爬取歌手在这个年代发行的所有专辑(录音室专辑)的歌词。那么,什么又是代表歌手呢?这没有一个统一的标准答案,我暂且选取一些知名度高、作品量大和我比较喜欢(熟悉)的歌手。如八十年代的谭张梅陈、九十年代的四大天王等。


[1]爬虫不是虫,而是一种自动抓取网页数据的程序或脚本。


Step2 准备数据


定义明确后,我开始爬虾米音乐的歌词(因为虾米比较好爬…)

一共爬取了28位歌手5029首歌100+万字的歌词。其中17位男歌手/组合,11位女歌手/组合。

▲爬虫爬取的歌词


平均每个年代7位歌手,平均每位歌手180首歌。是的,180这个数字也超乎我的想象,如黎明在90年代发行的专辑就有31张,而且还只算录音室专辑。


▲爬到的陈奕迅2005年《U-87》里12首歌的歌词。


Step3 用TextRank算法提取Top50关键词


歌词文本准备就绪,那么我们如何在浩瀚的词海里淘到每个时代的主旋律?我的做法是:运用TextRank算法,提取Top 50的关键词。


▲技术流程图


Step4 关键词分析,一探究竟


在Top50关键词的基础上再去分析,其实就是间接分析了这些歌词的主题。所谓窥一斑而见全豹也!下面,让我来给大家详细对关键词进行分析。


二、关键词分析


本想每个年代选一个关键词,但因为有些关键词是跨时代的,所以我在分析举例的过程中,并不会局限于某个年代,综合挑选了4个最具代表性的关键词进行分析。


为了给大家一个直观的印象,我使用文字云的工具,每个年代分别生成一张图片。但需注意,文字云工具分词的算法,与我提取关键词的算法并不相同,下文的分析以TextRank算法的结果为依据,图片仅供参考。


鸳鸯

受粤剧和英文歌影响的70年代


70年代的歌词很有诗意,如相思、春风、今宵、鸳鸯等。可能是因为流行音乐刚开始不久,仍然受到以往粤曲风格的影响。


▲70年代歌词词云


其中“鸳鸯”特别吸引到我的眼球,心想:这种词应该主要出自女歌手吧,要么是小凤姐(徐小凤),要么是汪阿姐(汪明荃),一定不会是我大Sam哥(许冠杰)和香帅(郑少秋)的。


然而统计结果却还我一个冰冷的巴掌——出现34次的“鸳鸯”,小凤姐和汪阿姐一共才占了7次,Sam哥占了7次,剩下20次全是香帅的!原来我脑海中只有郑少秋楚留香般的侠客形象,却忽略了他风流倜傥的另一面。看来真的要杜绝主观偏见,让数据说话。


▲汪明荃与郑少秋合照


70年代的歌词中,也出现很多英文单词,如love,me,all等。因为在许冠杰开始唱粤语之前,香港人都在听英文歌和国语歌。相信很多人对张国荣77年的American Pie有印象。英文歌是主流的现象从八十年代开始消失,可见许冠杰对港乐本土化起到极大的作用,难怪有“歌神”的称号。


诗意和英文,就像一对鸳鸯,在70年代的歌词湖泊上出双入对,代表着有别于其他年代的两大特点。这也是为什么“鸳鸯”这个词虽然出现频率不算太高,但仍当选年代关键词的原因。




我心

80年代前后,流行直抒胸臆


▲八十年代歌词词云


80年代前后,“我心”出现的频率都很高,但零零年代就几乎不见影踪了。“妳已在我心,不必再问记着谁。”这是我马上找到的、找到之后就不愿再找的、包含“我心”的代表歌词。相信荣迷都懂我在说什么。


▲张国荣


虽说不愿再找,但好奇心驱使,还是再找找吧。“我堕入情网你却在网外看始终不释放,你笑笑看看我象是望着猎物我心已伤。”谭校长的《爱情陷阱》代表另一种风格的“我心”。


校长、哥哥都那么赤诚,频频将“我心”示人,不难想象其他歌手后辈会如何大力效仿,其中包括歌神张学友:《爱是永恒》中,“其实你没有别离,在我心湖中”,还有《太阳星辰》的“太阳星辰,即使变灰暗,心中记忆,一生照我心”。


顺便一提,这两首歌都出自我很喜欢的林振强之手,传说强伯的词有很多太阳、星星和月亮,有机会可以数据分析验证一下。




没有

90年代,从有到无的想象力到达顶峰


90年代,歌词中出现大量的“没有”,“不可”,“没法”,“不想”等否定词汇。(其实八十年代就已经出现这种情况,只不过九十年代愈加明显和有代表性。)其中“没有”出现的频率非常显眼!


▲九十年代歌词词云


八十年代的1098首歌中,“没有”出现了207次,平均每五首歌出现一次;九十年代的2165首歌中,“没有”出现了983次,平均每两首歌出现一次;零零年代的1262首歌中,“没有”出现了821次,几乎平均每首歌出现一次!虽然“没有”只是副词,但我们不妨借它来研究一下歌词里的规律。


看看几个例子:


《风筝与风》

没有灯 背影怎可上路

如没云 天空都不觉高

......

当风筝没有风 

一颗心也都很重


《当》

当山峰没有棱角的时候

当河水不再流

当时间停住日夜不分

当天地万物化为虚有


《最佳损友》

问我有没有 确实也没有


《有没有》

你有没有爱过我 

有没有想过我
有没有 有没有 

也会有一点心动
的时候 但是说不出口
有没有 有没有 有没有
有没有 有没有 ......



韦礼安的《有没有》:最后一段就有11个“有没有”……

(《当》和《有没有》是国语歌,但这套路太像了,所以放上来一起讨论。)


▲twins


不难看出,上面的歌词分两类:“没有”和“有没有”。需要注意的是,“有没有”也被统计入“没有”的词频中。但因为两者意思其实不同,我们只探讨“没有”。


“没有灯,没有云,山峰没有棱角”,“没有”代表一种假设。因为有了,所以假设没有,我们会怎样;假设没有,便脱离现实,去到诗意的境界(至少是歌词的境界)。


难怪六七十年代的人听不惯现在的歌,因为他们那时穷啊,那时几乎是一无所有啊,你还让他们听 没有没有的,多残忍啊!而他们听的歌很多都是“有”的:


有风光,“漫漫前路有几多风光,一一细心赏”(徐小凤《漫漫前路》);

有胸襟,“湖海洗我胸襟,河山漂我影踪”(郑少秋《楚留香》);

有笑声,“沧海一声笑,滔滔两岸潮”(许冠杰《沧海一声笑》);

还有情,“未怕罡风吹散了热爱,万水千山总是情”(汪明荃《万水千山总是情》)。


解释一下,以前歌里的情不同于现在,以前的情多了几分积极向上。




世界

00年代,物质世界全球化和精神世界的探索


到了00年代,除了“没有”之外,“世界”已然成为歌曲中最热门的词。


▲00年代歌词词云


00年代香港乐坛的代表人物无疑是第三代歌神陈奕迅,他有一首歌就叫做《世界》的:“原来爱情的世界很大,大的可以装下一百种委屈;原来爱情的世界很小,小到三个人就挤到窒息”。还有一首更为人熟知的,《全世界失眠》:“一个人失眠,全世界失眠,无辜的街灯,守候明天”。


▲陈奕迅


说了很多男歌手,该到女歌手啦。00年代的香港女歌手,我最爱杨千嬅,《飞女正传》:“世界将我包围,誓死都一齐,壮观得有如,悬崖的婚礼”。为什么从八十年代开始,到零零年代,“世界”越来越多地被歌手们传唱?


一方面,我认为与全球化和经济发展有关,借用一句台词,“你连世界都没观过,还谈什么世界观?”说一样东西之前,你一定对它有所认识。“世界”在华语歌词中的流行,其实反映了一种全球化的趋势。


另一方面,我认为与一个人有关。这个人的名字也出现在零零年代的关键词中,也是关键词Top50中唯一一个人名——他就是林夕。(注:歌词文本中没有去掉作曲作词人等数据。)


“世界”这个中文词汇,其实出自佛经,意指时间和空间。而林夕正好是佛教徒。林夕的词,精美细腻的下面,是深不可测,蕴含着很多他的哲学思想,所以他会使用很多诸如世界的佛家用语,也理所当然。


三、“爱情”——永恒的主旋律


“鸳鸯”、“我心”、“没有”、“世界”,这四个关键词中的关键词,在香港乐坛年代变迁中,出现的频率跌宕起伏。然而,另有一个词,一直稳定且低调地占据着四个年代的关键词TOP10,它就是——“爱情”。


原来“鸳鸯”也是在讲爱情:

只羡鸳鸯不羡仙,鸳鸯般的爱情无比美好;

原来“我心”也是在讲爱情:

我心伤悲或狂喜,都是爱情在发动;

原来“没有”也是在讲爱情:

没有爱情一切无法想象,有了爱情可以想象一切;

原来“世界”也是在讲爱情:

爱情的对象,有时就是全世界。


难怪圣经也说:“爱情,众水不能熄灭,大水也不能淹没。”


现在,你知道香港歌坛四十年都在唱些什么了吗?


最后,附上4个年代关键词排名对比。

(只显示前15名)


▲70、80、90、00年代top15关键词排名


今天就先分享到这里,去看《歌手》了,心情好的话给大家用数据分析预测一下本季“歌王”吧!



  

往期精彩文章

点击图片阅读文章

我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么