最近,由著名导演昆汀·塔伦蒂诺执导,两大顶级好莱坞男神莱昂纳多·迪卡普里奥与布拉德·皮特联合主演的《好莱坞往事》,再一次唤起了影迷们对那个善于“篡改”历史,“恶搞”故事情节,来表达内心丰富情感的鬼才导演的热爱。
不得不说,昆汀非常善于利用制造情绪冲突与推迟高潮的来临,来引导观影者的情感走向。
那假如我们将他导演过的经典影片的台词拷贝过来,逐段逐句逐词地进行分析,归纳精炼出每部电影的情感标签,是不是就可以更好的理解他在“血腥”的表面下所搭建的充满张力的情感世界了呢?
如果你的老板或老师突然让你总结一部电影的情感变化,并要有可靠的数据作为支撑,你会怎么做?作者 Tim Lafferty 就想到了通过统计台词的情感倾向,来分析整部电影情感走势的方法。
https://public.tableau.com/zh-cn/gallery/intro-text-mining-and-sentiment-analysis?tab=viz-of-the-day&type=viz-of-the-day
首先,作者选取了昆汀导演的六部经典电影的剧本,这六部电影分别是《被解救的姜戈》、《八恶人》、《无耻混蛋》、《杀死比尔》第一部和第二部,以及《低俗小说》。
随后,作者将存储电影台词与电影名称的 Excel 文件导入到 R 中 (R 是一个用于统计分析与作图的开源软件)。利用 R 的情感词典包,进行自然语言处理(NLP)。
*自然语言处理,即把每一句台词段落拆分为单个的词汇,来提炼文本信息。在这个过程中,与情绪态度不相关的词汇(例如“他”、“将来”)与被反复使用的语气助词(“是”、“的”)都被会事先删除。
处理完成之后,作者使用评估文本的词典,输入提炼后的文字信息,即可输出与之对应的情感标签。
那么问题来了,什么是情感标签呢?当大家在阅读一本书的时候,经常会根据作者用到的段落、词汇来尝试理解文章的情感意图。比如我们会认为欢乐是代表积极的情绪,而愤怒、生气则常常与负面消极的情绪联系在一起。
这篇 Viz 的分析方法是将文本分为一个一个的单词,单个词汇的情感信息的总和则被视为整个文本的情感总和,它可以有效地辅助我们了解一部电影、一本书在叙事过程中情感的走向。
Afinn, Bing & NRC 情感词典
这篇 Viz 一共使用了三个情感词典,分别为 Afinn,Bing 和 NRC。这三个词典都是基于单个词汇来进行情感分析,不同之处则在于每个词典的分析方式与输出内容略有差异。
在这篇
Viz
的左上角,有一个筛选器。读者可以根据自己感兴趣的电影,进行选择。本文中选择的电影是《低俗小说》。
在下图中,红色粗线代表着《低俗小说》的情感走向,其他五部电影则用浅灰色实线代替,红色虚线表示中性情感。当位于折线图上的代表文本情感的点,出现在虚线上方时,则表示当前台词文本是积极的情感,当它出现在虚线下方时,则表示此刻的台词文本是消极的情感。
Bing 模型的分析原理是将词汇简单地分为积极的与消极的两大类别。这貌
似有点“粗暴”的划分,在应对大量文本数据的时候,无疑是个非常有效的分析方式。
如上图所示,纵观六部电影的整体情况,基本上所有电影的台词文本都是代表着消极的情绪,折线图均在中立线以下。其中,《
低俗小说》的情感倾向甚至比其他五部电影更加消极,
并且随着剧情的发展,与负面情感相联系的词汇出现的次数也逐渐增多。
无论是正面还是负面的情绪,都拥有不同的程度。为了更好的体现这种程度的变化,AFINN 模型通过将情感从 -5 到 5 分成不同的等级。-5 是负面情绪的最低值,5 是积极情绪的最高值。如上图所示,我们可以看出 AFINN 模型所得到的结论与 Bing 模型十分接近,两个模型的斜率基本相似,可见《低俗小说》也是六部电影中负面程度最严重的一部。
NRC 模型也将文本情感分为积极与消极两大类别,不过在此基础上,NRC 模型会赋值积极的情感为 +1,消极情感为 -1,同时将所有的词汇归类为八种基本情绪:愤怒、恐惧、期待、信任、惊讶、悲伤、喜悦和厌恶。
与前两个模型相比,NRC 模型则给出了不同的情感走向。以《低俗小说》为例,在剧情的前半段,偶尔有欢快积极的情感出现,它可能是信任、期待与快乐。但随着剧情的推进,消极的情绪逐渐笼罩着每一个主人公,厌恶、恐惧、愤怒等等的标签开始不断出现。
造成三种模型情感差异的原因有很多。
首先,每个词典的绝对情感是不同的,在 Bing 模型中的负面情感可能并不适用于 NRC 模型。
虽然在 NRC 的模型中,积极与消极情感的交替出现,导致与其他两个模型的总体走向并不类同,但我们依然能发现三个模型的波峰波谷出现的时间极为相似。
NRC 模型,八种基本情绪的四象限图
在 Viz 的后半部分,作者利用 NRC 模型中的八种基本情绪,为每部电影创建了情感四象限图。依旧以《低俗小说》为例,上图展示出被整合后的八种基本情绪在这部电影的分布情况。其中四组情感位于坐标轴上,四组情感位于两个坐标轴的对角线上。当中间的不规则红色图形向外扩张的越多,这部电影的情感张力则越大。随着图形向某一个情感点的延伸(远离原点的方向),这部电影与这一情感点相关联的台词文本就越多。
从象限图中可以看出,《低俗小说》的剧情里充满了愤怒、恐惧和信任,而惊讶则稍显匮乏,而上图则与之相互对应。纵向罗列每部电影的名称,横向标明 NRC 模型里的八种基本情绪。作者在这里使用颜色的深浅来表达情绪的倾向,也可以理解为剧本中出现该情绪的词汇的数量。《低俗小说》里关于惊讶的图标颜色明显浅于其他的情绪标签,这也与象限图的情况相吻合。值得注意的是,《被解救的姜戈》与《八恶人》充斥着强烈的信任的情绪。
脏话的频率
最后,作者还留下了一个小彩蛋,他将每部电影剧本中脏话的出现频率列了出来。
在《低俗小说》里出现了 255 次的 “F” 字开头的词汇, 也难怪它的情感模型是如此的消极。
这里,作者“心机”地只标出了单词的首字母,具体是哪个单词,就看破不说破啦~
本篇
Viz
作者 Tim Lafferty 运用数据算法里的文本挖掘与情感分析,从著名导演昆汀·塔伦蒂诺的六部经典电影中提炼台词数据,生成情感标签,帮助读者直观的感受比较六部电影的情感走向。
值得一提的是,作者同时在这篇
Viz
的文首嵌入了文本挖掘与情感分析的详细步骤的链接,读者们可以更好的了解 Tim 是如何高效地清理并整合这些台词数据的。
有兴趣的小伙伴可以尝试下载一下数据库,自己进行分析操作。
互动话题
(便利贴 / 手机扣 / VizBook《数据可视化的科学与艺术》)
淡月清云
Moses
Jue
(便利贴 / 手机扣 / VizBook 《数据可视化的科学与艺术》)
如果小伙伴们对于
Tableau 产品有其他问题或需求,欢迎给我们留言~~
查看微信菜单栏【学习】的子菜单栏
“
可视化精选”
,所有 Viz 文章分类展示,提升阅读体验,让您更直观地找到感兴趣的文章,快来试试吧!
Tableau 中国官方微信定期为您推送最新行业趋势、热点资讯、精彩活动等信息。立即订阅,官方信息一手掌控,更多精彩,更多新鲜,敬请期待!