专栏名称: Tableau社区
Tableau中国官方微信。分享商业智能(BI)行业趋势、大数据可视化分析前沿技术、Tableau最新动态、成功案例及市场活动等资讯。Tableau Software(纽交所代码:DATA)致力于帮助大家认识和理解数据。
目录
相关文章推荐
51好读  ›  专栏  ›  Tableau社区

数说影话:用数据揭秘怪才昆汀电影作品的情感走向

Tableau社区  · 公众号  · BI  · 2019-09-06 17:45

正文

请到「今天看啥」查看全文


互动话题见文末

最近,由著名导演昆汀·塔伦蒂诺执导,两大顶级好莱坞男神莱昂纳多·迪卡普里奥与布拉德·皮特联合主演的《好莱坞往事》,再一次唤起了影迷们对那个善于“篡改”历史,“恶搞”故事情节,来表达内心丰富情感的鬼才导演的热爱。


不得不说,昆汀非常善于利用制造情绪冲突与推迟高潮的来临,来引导观影者的情感走向。


那假如我们将他导演过的经典影片的台词拷贝过来,逐段逐句逐词地进行分析,归纳精炼出每部电影的情感标签,是不是就可以更好的理解他在“血腥”的表面下所搭建的充满张力的情感世界了呢?


1
台词竟然也可以被分析?


如果你的老板或老师突然让你总结一部电影的情感变化,并要有可靠的数据作为支撑,你会怎么做?作者 Tim Lafferty 就想到了通过统计台词的情感倾向,来分析整部电影情感走势的方法。

上下滑动查看完整 Viz

➤ 复制下方链接至浏览器 ,即可查看此 Viz:
https://public.tableau.com/zh-cn/gallery/intro-text-mining-and-sentiment-analysis?tab=viz-of-the-day&type=viz-of-the-day


首先,作者选取了昆汀导演的六部经典电影的剧本,这六部电影分别是《被解救的姜戈》、《八恶人》、《无耻混蛋》、《杀死比尔》第一部和第二部,以及《低俗小说》。


随后,作者将存储电影台词与电影名称的 Excel 文件导入到 R 中 (R 是一个用于统计分析与作图的开源软件)。利用 R 的情感词典包,进行自然语言处理(NLP)。

*自然语言处理,即把每一句台词段落拆分为单个的词汇,来提炼文本信息。在这个过程中,与情绪态度不相关的词汇(例如“他”、“将来”)与被反复使用的语气助词(“是”、“的”)都被会事先删除。


处理完成之后,作者使用评估文本的词典,输入提炼后的文字信息,即可输出与之对应的情感标签。



2
什么是情感标签?


那么问题来了,什么是情感标签呢?当大家在阅读一本书的时候,经常会根据作者用到的段落、词汇来尝试理解文章的情感意图。比如我们会认为欢乐是代表积极的情绪,而愤怒、生气则常常与负面消极的情绪联系在一起。

这篇 Viz 的分析方法是将文本分为一个一个的单词,单个词汇的情感信息的总和则被视为整个文本的情感总和,它可以有效地辅助我们了解一部电影、一本书在叙事过程中情感的走向。

3
请翻开这本情感词典

Afinn, Bing & NRC 情感词典


这篇 Viz 一共使用了三个情感词典,分别为 Afinn,Bing 和 NRC。这三个词典都是基于单个词汇来进行情感分析,不同之处则在于每个词典的分析方式与输出内容略有差异。



在这篇 Viz 的左上角,有一个筛选器。读者可以根据自己感兴趣的电影,进行选择。本文中选择的电影是《低俗小说》。

在下图中,红色粗线代表着《低俗小说》的情感走向,其他五部电影则用浅灰色实线代替,红色虚线表示中性情感。当位于折线图上的代表文本情感的点,出现在虚线上方时,则表示当前台词文本是积极的情感,当它出现在虚线下方时,则表示此刻的台词文本是消极的情感。



Bing 模型的分析原理是将词汇简单地分为积极的与消极的两大类别。这貌 似有点“粗暴”的划分,在应对大量文本数据的时候,无疑是个非常有效的分析方式。 如上图所示,纵观六部电影的整体情况,基本上所有电影的台词文本都是代表着消极的情绪,折线图均在中立线以下。其中,《 低俗小说》的情感倾向甚至比其他五部电影更加消极, 并且随着剧情的发展,与负面情感相联系的词汇出现的次数也逐渐增多。



无论是正面还是负面的情绪,都拥有不同的程度。为了更好的体现这种程度的变化,AFINN 模型通过将情感从 -5 到 5 分成不同的等级。-5 是负面情绪的最低值,5 是积极情绪的最高值。如上图所示,我们可以看出 AFINN 模型所得到的结论与 Bing 模型十分接近,两个模型的斜率基本相似,可见《低俗小说》也是六部电影中负面程度最严重的一部。



NRC 模型也将文本情感分为积极与消极两大类别,不过在此基础上,NRC 模型会赋值积极的情感为 +1,消极情感为 -1,同时将所有的词汇归类为八种基本情绪:愤怒、恐惧、期待、信任、惊讶、悲伤、喜悦和厌恶。


与前两个模型相比,NRC 模型则给出了不同的情感走向。以《低俗小说》为例,在剧情的前半段,偶尔有欢快积极的情感出现,它可能是信任、期待与快乐。但随着剧情的推进,消极的情绪逐渐笼罩着每一个主人公,厌恶、恐惧、愤怒等等的标签开始不断出现。


造成三种模型情感差异的原因有很多。 首先,每个词典的绝对情感是不同的,在 Bing 模型中的负面情感可能并不适用于 NRC 模型。 虽然在 NRC 的模型中,积极与消极情感的交替出现,导致与其他两个模型的总体走向并不类同,但我们依然能发现三个模型的波峰波谷出现的时间极为相似。


NRC 模型,八种基本情绪的四象限图


在 Viz 的后半部分,作者利用 NRC 模型中的八种基本情绪,为每部电影创建了情感四象限图。依旧以《低俗小说》为例,上图展示出被整合后的八种基本情绪在这部电影的分布情况。其中四组情感位于坐标轴上,四组情感位于两个坐标轴的对角线上。当中间的不规则红色图形向外扩张的越多,这部电影的情感张力则越大。随着图形向某一个情感点的延伸(远离原点的方向),这部电影与这一情感点相关联的台词文本就越多。


从象限图中可以看出,《低俗小说》的剧情里充满了愤怒、恐惧和信任,而惊讶则稍显匮乏,而上图则与之相互对应。纵向罗列每部电影的名称,横向标明 NRC 模型里的八种基本情绪。作者在这里使用颜色的深浅来表达情绪的倾向,也可以理解为剧本中出现该情绪的词汇的数量。《低俗小说》里关于惊讶的图标颜色明显浅于其他的情绪标签,这也与象限图的情况相吻合。值得注意的是,《被解救的姜戈》与《八恶人》充斥着强烈的信任的情绪。

脏话的频率


最后,作者还留下了一个小彩蛋,他将每部电影剧本中脏话的出现频率列了出来。 在《低俗小说》里出现了 255 次的 “F” 字开头的词汇, 也难怪它的情感模型是如此的消极。 这里,作者“心机”地只标出了单词的首字母,具体是哪个单词,就看破不说破啦~


本篇 Viz 作者 Tim Lafferty 运用数据算法里的文本挖掘与情感分析,从著名导演昆汀·塔伦蒂诺的六部经典电影中提炼台词数据,生成情感标签,帮助读者直观的感受比较六部电影的情感走向。


值得一提的是,作者同时在这篇 Viz 的文首嵌入了文本挖掘与情感分析的详细步骤的链接,读者们可以更好的了解 Tim 是如何高效地清理并整合这些台词数据的。 有兴趣的小伙伴可以尝试下载一下数据库,自己进行分析操作。



互动话题


昆汀导演的电影作品中你最喜欢哪一部,
喜欢的原因是什么?


点赞最高的三名用户将获得精美礼品一份

(便利贴 / 手机扣 / VizBook《数据可视化的科学与艺术》)



互动话题获奖名单


上期话题是


看完本篇 Viz 你有哪些想法呢?
来跟我们分享一下吧~


恭喜以下获奖的小伙伴
淡月清云

Moses

Jue

请在后台留下您的快递地址
并在以下三个奖品中选择一个作为邮寄奖品

(便利贴 / 手机扣 / VizBook 《数据可视化的科学与艺术》)


欢迎留言


如果小伙伴们对于 Tableau 产品有其他问题或需求,欢迎给我们留言~~


可视化精选

查看微信菜单栏【学习】的子菜单栏 可视化精选” ,所有 Viz 文章分类展示,提升阅读体验,让您更直观地找到感兴趣的文章,快来试试吧!


左右滑动查看更多



Tableau 中国官方微信定期为您推送最新行业趋势、热点资讯、精彩活动等信息。立即订阅,官方信息一手掌控,更多精彩,更多新鲜,敬请期待!



在看点一下 大家都知道


点击
阅读原文 ”, 查看本期 Viz!






请到「今天看啥」查看全文


推荐文章
彩虹志  ·  基友辨认安装指南
7 年前
企鹅吃喝指南  ·  永不凋零的珍爱花园 | 企鹅市集
7 年前
央视新闻  ·  不经风雨,拿什么去回忆!
7 年前