专栏名称: AI报道
大数据时代,做数据的玩家!
目录
相关文章推荐
大数据文摘  ·  OpenAI长文爆料反击马斯克诉讼:“你不能 ... ·  昨天  
CDA数据分析师  ·  【干货】常用的5种数据分析方法大揭秘 ·  2 天前  
玉树芝兰  ·  晚上直播,欢迎来聊天儿 ·  5 天前  
大数据文摘  ·  满血版 o1 上线两天,被网友玩出来了 ... ·  6 天前  
51好读  ›  专栏  ›  AI报道

用数据全方位解读《欢乐颂2》

AI报道  · 公众号  · 大数据  · 2017-06-10 20:13

正文

来源:运营喵是怎样炼成的(ID:yymzylc)



0 楔子

5月11日,让众多安迪粉期待已久的《欢乐颂》第二季终于播出。相比首季,《欢乐颂2》在造型和场景上显得更为精致时尚,且其中每个角色的造型却都是遵从的其身份和背景,并不突兀。

正所谓“外行看热闹,内行看门道”,作为数据分析爱好者的笔者,自然想从数据的角度去解读这部热播剧的方方面面,包括舆情传播、网络口碑、人物社交网络分析及,以及小说内容的文本分析。以下是笔者在这篇文章想要着重分析的内容:

  • 这部分在互联网上的舆情传播如何?包括该剧的全网传播趋势、关注人群画像,及网络营销手法。

  • 和大获成功的第一部相比,第二部的口碑如何?主要涉及本剧豆瓣影评的文本分析。

  • 对第一、二季的小说文本分析。主要涉及关键词提取、主要人物的社交网络关系及关联词分析等。

在笔者进行分析的过程中,会用到一些常用的(大)数据分析工具,以及环环相扣的数据分析讨论,虽然对于常规的数据运营并无直接的帮助,但“他山之石,可以攻玉”,分析的思路却可以作为参考,以期应用到其他实际的场景中。

1 《欢乐颂2》的大数据舆情分析

在第一部分中,笔者选取了2017.05.07~2017.05.29期间关于《欢乐颂2》的全网舆情数据作为数据分析对象,利用新浪微舆情的“信息监测”和“全网事件分析”作为数据采集、数据分析和可视化的工具。

以下分别从《欢乐颂2》的全网传播概况及传播趋势两方面进行分析。

1.1《欢乐颂2》的全网传播概况

(1)全网传播走势

上图是《欢乐颂2》在这段时间内信息传播走势图,自开播之日起,该剧的全网声量出现了明显的提升,而且里面出现了几个信息传播的“波峰”,说明当日全网关于该剧的讨论(包括媒体和网民个体)较多。尤其需要注意的是,本剧开播当日(5-11)的波峰峰值是该时间段内最大的一个,这是不是一个巧合呢?不要急,笔者会在后面为各位小伙伴解开谜底。

(2)全网正负面信息占比

从上图中可以看到,这段时间内,全网关于《欢乐颂2》的信息量有5,564,016条,其中负面信息的占比达到152,315条,占到总信息量的2.74%。


同时,在总体上,负面信息随着时间的推移又不断增长的趋势。

结合二者来看,如此这般的负面信息占比和发展情形对于该剧来说不太有利,说明全网关于该剧的负面口碑评价比较显著,需要引起制片方的重视,笔者会在接下来的分析中,探明到底出现了哪些负面口碑,以及它们出现的原因。

(3)全网关注度来源

因为在影视剧的传播声量中,微博这块占据较大的比重,所以笔者在排除微博这一信息来源后,对余下的信息来源TOP10进行了统计,如下图所示:

从上图可以看出,除开微博外,微信、今日头条这两大社会化媒体平台上关于本剧的信息量贡献最多,尤其微信在近日推出了「微信实验室」,通过新增加的“搜一搜”和“看一看”这两个入口,使用户能够主动搜索关键词,能够浏览热点资讯、好友关注的资讯以及自己感兴趣的文章,这样的动作加上数年的优质内容沉淀,使得微信在社会化媒体内容生产方面的重要性日渐突出。

(4)全网信息地域分布

有点意外,全网关注度(关于这部剧的全网信息量)排名榜首的是江苏,竟然不是北京和上海这两大年轻白领云集的现代化的都市,尤其是上海,关于本剧的信息量分布在TOP10中垫底,难道上海的网民和媒体绝大部分都弃剧了?或者说是本剧的口碑极差?

对于此种疑问,笔者将会在第二部分进行分析。

1.2人群画像

因为关于本剧的探讨,微博(主要是新浪微博)占据大头,所以笔者选取该平台上的人群作为分析对象。

(1)  性别分布

毫无疑问,女生是该剧的忠实拥簇,他们对该剧的狂热绝对超过男生。

(2)  年龄分布

从下图中可以看出,19-34这个年龄区间占据关注人群的70%左右,也就是说青年群体对该剧很感兴趣。

(3)  兴趣图谱

下图给出了关注该剧的人群的兴趣标签TOP5,可以看出,这部分人群比较追星,热爱生活,都是一些极具年轻人特质的兴趣爱好。

由此可见,关注《欢乐颂2》的主体是一群热爱生活、热衷于明星的青年女性。

1.3 《欢乐颂2》开播当日的营销宣传分析

在前面提及的全网传播趋势中,笔者提到了该剧在开播当日就出现明显的声量高峰,很明显,这绝非偶依然。

从前面的信息来源分布可以得知,该剧绝大部分的声量都来源于微博,尤其是新浪微博。为此,笔者单独调出5-11的微博信息趋势数据。

从上图可以看到,新浪微博上关于该剧的信息量大体上是呈现上升趋势的。在当日的23时左右达到高峰,而且这种增长趋势很有节奏感---从工作时间段9:00开始,声量随时间的推移不断上涨。

为了进一步发现其中的传播规律,笔者利用新浪微舆情的“信息监测”模块对其中有影响力的微博进行了进一步的搜寻和排查,也就是发现其中转发次数较多的微博,以及顺藤摸瓜,发现传播源头。

经过逐步的抽丝剥茧,笔者发现了其中转发量较多的几条微博,也就是传播源头,主要是《欢乐颂2》的几位主演的微博账号和一些跟该剧有关的微博话题。从实际效果来看,《欢乐颂2》的几位主演---刘涛、王凯、杨紫等人在新浪微博上的影响力较高,粉丝数量庞大,主动转发积极,使得对剧集宣传的效果也相对较好。

除了主创人员的主动推广外,《欢乐颂2》的推广营销方式也是丰富多样。在微博推广上,《欢乐颂2》的宣传物料准备充足,预告片、小花絮、主题曲MV等一应俱全;宣传矩阵搭建完整,不仅注意与微博官方账号“新浪娱乐”、“新浪电视”、“东方卫视番茄台”和”@微博电视剧“等)、广告品牌等多方联动,而且KOL舆论引导投入巨大,还邀请其他明星助力宣传(如范冰冰)。

然而,从上面的传播效果来看,媒体大号的传播效果没有明星个人的微博账号传播效力大,那么,其中的原因又是什么呢?我们接着往下看。

1.4 微博传播效果分析

为了深入了解媒体大号和明星个人微博传播特点和规律,笔者特地找了5-11当天粉丝互动量较大的2条微博---分别为@微博电视剧和刘涛的个人微博账号@刘涛tamia,它们的转发评论几近一致,方便在同等条件下发现其中的传播规律。

将这两条微博的转发传播关系数据导出,制成能够清晰反映传播路径的可视化“力导向传播图“:

上图是@微博电视剧关于《欢乐颂2》的营销微博的传播路径图,其中紫色“簇群“的中心就是账号@微博电视剧,除了它自己带来的转发传播(也就是紫色簇群区域内的小圆点)之外,周围还有一些次级传播中心,比如“十三點半的kings”、“影视大米FAN”、“吴侃侃kkw”这样营销性质很强的自媒体账号进行协助宣传,显然这是宣传方砸钱买的流量,不是自带的。

而下面刘涛的该条微博就呈现出明显的“中心化”特点,也就是除了刘涛个人微博账号以外,就没有特别明显的次级传播中心,绝大部分的传播都来自于刘涛的账号粉丝。

由此,结论不言自明:

明星个人微博的传播叫媒体大号而言更有效力,因为明星因其个人魅力,吸聚的粉丝多,发的微博贴近生活,跟粉丝之间有较强的互动关系,而且他们的粉丝团体也会不遗余力的去散播此类消息,所以传播效力更强一些。相比之下,微博大号因为自身的营销属性,除非有利益驱动,粉丝才会主动参与互动,一般而言不会太强,更有甚者,会发动水军进行操作,通过不正当的手段以谋取利益。

好了,上面是关于《欢乐颂2》的大数据舆情传播分析,下面会进入到另一个板块---对该剧的口碑(主要是豆瓣影评)和小说文本进行文本挖掘,期待发现一些更有趣的内容。

2 《欢乐颂2》的豆瓣口碑分析和小说文本分析

一般来说,对于文本的深入挖掘往往能实现“知其然并知其所以然”的效力,因为文本不像数字那般空洞和抽象,内容往往能直接揭示出原因。

这部分的数据主要有:

  • 《欢乐颂》第一季和第二季的豆瓣影评

  • 《欢乐颂》第一季和第二季对应的原著小说,《欢乐颂2》的剧集将把后两季的小说内容进行打包拍摄,所以第二、第三季的小说内容都会出现在《欢乐颂2》的剧情里

豆瓣电影是中国最大与最权威的电影分享与评论社区,收录了百万条影片和影人的资料,有2500多家电影院加盟,更汇聚了数千万热爱电影的人,因而这里关于影视剧的评论具有一定的代表性和公信力,可以在很大程度上反映一部影视剧作品的口碑状况。所以,笔者抓取豆瓣上《欢乐颂》一二季的影评作为口碑分析的依据。 

2.1《欢乐颂》一、二季的总体口碑对比分析

(1)评价星级

从总评分来看,《欢乐颂》第二季要明显逊色于第一季,前者拿到了7.3的高分,而后者仅获得了5.2的评分。


从第一季和第二季的评价星级占比可以看出,出现第二季总评分低于第一季的原因在于:第二季在中高分区间“4星”和“3星”中的占比要小于第一季,而在低分区间“2星”和“1星”中的比重要高于第一季。

(2)《欢乐颂2》的豆瓣影评情感倾向分析

由于第一季的口碑要好于第二季,所以笔者接下来着重分析一下第二季的豆瓣影评的“情感倾向”。

这里的“情感倾向”是以一个介于0~1之间的“情感极性值”来表征---如果某条评论的情感极性值越接近于0,说明它的负面情感倾向越明显,越接近于1,说明它的正面情感倾向越明显,而取值在0.5左右徘徊,这说明这种情感倾向不明显,是为“中性”。笔者将情感倾向值的取值区间0~1细分为3个子区间,分别对应不同的情感倾向:


豆瓣影评具有独特的语言风格---反讽,贬义褒用,不像商品评论那般直白外露,它的语义往往含蓄且幽默。所以在分析之前,笔者找到大量有标注的豆瓣影评语料,利用机器学习进行情感语义模型训练,以期达到良好的情感正负面判断效果。初步结果如下:


经情感倾向标签映射处理,得到如下结果:


从上图可以看到,第一季和第二季的情感倾向的最大差异在于正负面情感的比重不同:第一季的评论正负面情感占比旗鼓相当,而第二季的负面情感明显占据主导地位,正面占比大幅压缩,这也是本剧豆瓣评分不高的原因之一。

再看一下情感倾向随时间发展的走势情况,笔者选取的分析时间段是3.31~5.22,也就是该剧播出前一个多月和播出后一段时间的情感倾向走势。这里采用的是情感倾向值累加的数值,越高说明口碑评价越好,这也兼顾了评论数量上的增减情况(豆油愿意参与评分,哪怕是负面评分,也说明对本剧有一定的关注度)。由此得到下图:


可以看出,在本剧播出次日,情感倾向值达到高峰,随后一路下降,结合这段时间内的总体情感倾向占比可知,豆油们对于该剧播出后的剧集的关注度和口碑评价都呈现出下降的趋势。

那么,究竟是什么原因让广大豆油们对该剧如此嫌弃呢?请接着往下看。

(3)《欢乐颂》一、二季豆瓣评论内容的关键词对比分析

以下是关于《欢乐颂》一、二季豆瓣评论文本的关键词对比分析,可以在这张直观的可视化效果图上看到“豆油”们对《欢乐颂》一二季方方面面的评价。

上图中,对于一二季的评论文本分别按照“高提及率(Frequent)”和“低提及率(Infrequent)”进行了划分。上图以横纵轴的“Average”进行切分,则可以分为4个象限,右上角的为2类文本提及率皆高的词汇,左下角为二者提及率皆低的词汇。左上和右下仅是二者之一高提及率的词汇。

另外,蓝色点阵代表的词汇属于对《欢乐颂》第一季的评价,黄色点阵所代表的的词汇属于对《欢乐颂》第二季的评价,右上角的象限二者的评语趋于重合。

在右边的TOP Terms(重点关键词汇)一栏中可以看到,对于第一季的评论,豆油们主要提到了该剧的cast/卡司( 演员阵容强大)、山影山东影视制作有限公司,该剧的出品方)、(看该剧)停不下来、(人物形象)丰满,以及关于安迪和奇点(魏渭)的情感主线的探讨,但没有出现明显的负面评价,甚至以褒赞为主。

而第二季里,很多豆油拿第一季和第二季进行对比,认为本剧和第一季没得比,还有就是本剧里的插曲太多,好似一个MV大集合(“MV”、“mv”、“歌曲”、“就唱”),正如某位豆油的评论所说“一开始就狂配bgm,而且感觉和剧情并不搭嘎,什么咖喱歌一股乡村风”。。。值得玩味的是,也有都有拿本剧和同一时间段的《白鹿原》做对比,两部剧均包含对时代环境和个体发展的探讨,但在格局、视野以及最终呈现方式上都有较大不同。

点击其中的关键词,看到关于这些关键词的评论详情(语句经过分词和去停用词)。


总之,豆油们关于第二季的吐槽很多。

由此,笔者想进一步看看豆油们到底还有哪些关于该剧的槽点。

(4)第二季的典型意见挖掘对比分析

将经预处理得到的5000条典型评论进行文本聚类,每一个文本聚类“簇群”都会有一个中心语句,也就是该“簇群”的典型意见,所以这种文本处理也叫做“典型意见挖掘”,用来从海量的文本里发掘主要的观点或意见。

经笔者处理,5000条评论被划分为300多个成分占比不一的“话题簇群”,笔者仅选取其中占比TOP10的典型意见进行展示。


从上表可以看出,豆油们关于本剧的典型意见多为负面,集中在以下几个方面:

  • 比第一部差,主要诟病的地方在于本剧的剧情、编剧和演员演技,以及硬生生的人物专属插曲乱入

  • 三观不正,被吐槽为“高配版小时代”,倡导“纸醉金迷”的富人价值观

  • 对本剧中的个别角色及其主演的喜好,如邱莹莹和赵启平及其扮演者

除此之外,本剧广告植入太多也是很多豆油吐槽的地方,本剧为了配合植入广告,角色人物的吃穿用度多处设定明显违和,甚至有豆油表示“《欢乐颂1》是在剧情里插播恰到好处的广告,而《欢乐颂2》是在硬生生的广告里插播剧情。。。”

(5)“五美”人物点评词云

综合豆油们关于《欢乐颂》第一季和第二季关于剧中“五美”的评论,笔者制作出安迪、曲筱绡、樊胜美、关雎尔和邱莹莹的个性化评论关键词词云。


不消笔者多说,小伙伴们就能看出这些人物关键词词云,主要反映了豆油们对于“五美”的人物印象及其主要的关联人物。对于这五个人的性格特征,由上述关键词词云可以总结为:

  • 外冷内热、气场强大的冰山御姐安迪

  • 古灵精怪、魅力超群的小妖精曲筱绡

  • 虚荣拜金、独立自强的骄傲女王樊胜美

  • 文静内敛、一团和气的优质女孩关雎尔

  • 单纯可爱、精力充沛的元气少女邱莹莹 

2.2 《欢乐颂》一、二季的小说文本分析

(1)一二季的小说文本关键词对比

此处,对于小说文本的关键词提取,笔者没采取一般文本分析时所采用的词频统计,而采用的是TF-IDF(term frequency–inverse document frequency)关键词统计方法,从而更有效的提取文本中的关键信息。详情可以参阅《以为例,来谈大数据舆情分析和文本挖掘》的第三部分。

以下是该《欢乐颂》一二季原著小说的关键词TOP20。

可以看出,一二季小说文本的关键词绝大部分是其中的主要人物,而主要人物的总体顺序(对于小说而言是人物的重要性)变动不大,个别人物出现重要性的“位移”:

  • 安迪、曲筱绡和樊胜美是一二季中妥妥的一号、二号和三号女主人公

  • 包奕凡在第二季的重要性有所提升,而魏渭的重要性则呈现下降的趋势

  • 电视剧第二季中出现的谢滨(也就是电视剧中的音乐达人谢童)、舒展和陈家康也出现在小说二三季的关键词TOP20中,不过排名较为靠后。

这也说明,小说和剧本在人设上保持有连贯性,没有明显大的变动。

(2)一、二季剧中人物社交网络分析

通过设置人物词典,笔者从中提取出《欢乐颂》一二季对应小说文本的人物社交关系图谱,用来发现2部电视剧中人物关系的特征。

在人物社交网络中,每个节点代表一个人物,线条代表人物之间的关系,线条颜色的人物节点代表他们之间有着较为频繁的交往(或友或敌)。节点及其代表人物字体的大小表征的是“Betweenness Centrality (中介性核心性)”,该词学术的说法是“两个非邻接的成员间的相互作用依赖于网络中的其他成员,特别是位于两成员之间路径上的那些成员,他们对这两个非邻接成员的相互作用具有某种控制和制约作用“,说人话就是—字体大的人物具有更大的人际关系影响,能接触和影响的人物较多,而在小说中出现次数多的未必就是这类人物,这里的存在感需要以人脉和影响作为基石。详情可参看以为例,来谈大数据舆情分析和文本挖掘》的第三部分。

从上图可以看出,第一季中的安迪和几个主要人物都有很强的人际联系,他们之间的连线较粗,而谭宗明、曲筱绡、樊胜美等人的人脉资源丰富,或者是他们人际交往/应酬较多。

在第二季的人物社交网络中,则呈现出“去中心化”的趋势,除了成为爱人的包奕凡外,第一主角安迪与其他人的交往没之前那么密切了。按照剧情发展,他们之间迎来了情感的新可能,却也面临来自身世及包家内部带来的新困扰,加之后妈魏太太的不断责难,这样也不久难理解安迪和其他人的交往较第一季要少了,自身麻烦不断,所以无暇顾及。。。

当然,第二季的人物情感脉络也很清晰了,即使有搅局者的出现(魏渭、舒展、陈家康等),固定的CP组合也没有出现变化,如安迪-包奕凡、邱莹莹-应勤,曲筱绡-赵启平,樊胜美-王柏川,以及关雎尔-谢滨(谢童)。

(3)小说文本的人物关联词分析

在最后,笔者把《欢乐颂》小说1、2、3季合并,经过文本预处理后,再进行小说文本的词向量训练,将这些词汇映射到向量空间,变成一个个词向量(Word Vector),以使这些词汇在便于被计算机识别和分析的同时,还具有语义上的相关性,而不仅仅是基于词汇之间的共现关系。

由于篇幅原因,笔者仅涉及跟“五美”相关的关联词分析,各呈现TOP10的关联词,由此发现跟主设人物相关的词汇,发掘人物深层次的特点。

从上面“五美”的TOP10关联词可以得到两类关联词:

第一类词是跟主设关系密切的人物,如魏渭、包奕凡之于安迪,赵启平、刘歆华之于曲筱绡等,这些都符合大家对于电视剧的认知。

另一类是反映人物行为的词汇。如安迪和曲筱绡,二人常用的通信工具都有电话,其他三人只用手机进行通讯。而电话一般指固定电话,设在办公室,较为正式,领导或是管理层用的比较多;而手机具有便携性,无论室内和外出都用的多。

安迪、曲筱绡和樊胜美的关联词里有涉及“昨晚”,再对照小说原本,三人都有很多晚上交际应酬的场景。

此外,在樊胜美、关雎尔和邱莹莹的关联词里,都出现了“连忙”一词,有“立即”、“马上”的意思,也就是经常会出现仓促、手忙脚乱的情形。

字字珠玑间,折射出“五美”所处的社会阶层和自身心态。

 

结语

虽然分析下来,《欢乐颂2》在剧情和各种细节上多有瑕疵,加之违和感很强的硬广植入,所以它的口碑远不及第一季。然而,《欢乐颂2》还是较好的继承了第一季典型的人物设定,很多观众能够通过“五美”看到自己或者身边人的影子,虽是小说,但也紧密观照当下现实,拥有一种天然的熟悉感和代入感,更能引发剧集和观众之间的情感共鸣,甚至还被许多都市白领奉为生存指南和恋爱择偶教科书。

或许,像很多毁誉参半的影视剧那样,关于它们的评判本来就是模棱两可的:

誉满天下,未必不为烂片;谤满天下,未必不为佳剧~

那么,看完本文或本剧的小伙伴,你觉得呢?


ps:笔者写完这篇文章的时候,第二季还一集没看哦,有对剧情误读的地方还请资深剧迷见谅哦,哈哈哈。

参考资料及工具:

1.新浪微舆情:“全网事件分析”、“信息监测”及“微博传播效果分析”模块(数据采集、数据分析和数据可视化呈现)

2.微指数(人物画像)

3.《欢乐颂》1、2、3季的小说原著(文本数据)

4.《欢乐颂1》和《欢乐颂2》的豆瓣影评(评分数据和文本数据)

5.Python,jieba分词、snownlp、gensim、tagul(部分文本处理和分析)


限时干货下载:添加微信公众号“数据玩家「fbigdata」”

回复【2】免费获取「完整数据分析资料,包括SPSS\SAS\SQL\EXCEL\Project!」