专栏名称: 前海征信中心
深圳前海征信中心是独立的第三方商业征信机构。我们致力于为消费者普及信用知识、培养信用意识,也帮助广大中小金融机构提升风险管理和信用评估专业能力。
目录
相关文章推荐
雨果网  ·  Meta重要通知 | ... ·  昨天  
塔罗牌解忧馆  ·  解忧塔罗店日历 | ... ·  2 天前  
跨境电商鹰熊汇  ·  全国跨境电商发展迅猛!期待下一个十年! ·  1 周前  
51好读  ›  专栏  ›  前海征信中心

朝阳35处 |“摔爸”看了不过瘾?算法帮你选好片

前海征信中心  · 公众号  ·  · 2017-05-18 18:16

正文



范爷成为戛纳电影节评委,大幂幂拿到休斯顿影后……电影圈艺人们的事业风生水起,从一个侧面证明中国电影在发展中不断走出国门、走向世界


不过,对于处座这种小百姓,最大诉求也就是在电影院好好看部电影。但是,令人尴尬的演技和莫名其妙的剧情却依然时不时让电影院的我们辣眼睛……


究竟谁导的电影好看?谁写的剧本有趣?谁的演技出神入化?或者说哪些演职员们的组合就意味着很可能看到一部买票时应该避开的“烂片”?为了满足好奇心,也为了自己的腰包(心疼自己),处座决定利用大数据算法,多角度对国产电影扫描一下。


以下从豆瓣的“中国电影”分类下选取了三千多部电影,经过数据清理(去除动画、纪录片等)后,保留了1913年以来的共2415部电影数据。



近年获得高评分的国产片比例越来越低




从时间来看,如图所示,中国每年上映的电影数量整体趋势上涨。特别是改革开放以来,每年的新映电影数量几乎以指数式增长。即便考虑到年代过于久远的部分作品随着时间推移而遗失的影响,中国电影市场在近些年还是明显的的迅速膨胀。



然而遗憾的是,中国电影的口碑却没跟上电影数量的脚步,每年新映电影的平均分整体呈下降趋势,在2016年甚至低于5.5分。(也有部分原因是由于早期作品只有优秀的才保留下来)。


为了进一步探究电影质量的情况,我们把电影划分为“8-10分”、“6-8”、“6分以下”三个区间,依次对应为“好、中、烂”三个档次。



从面积图可以发现,近20年中国电影获得高评分的比例越来越低,而6分以下的“烂片”比例似乎翻了几倍。



关联规则算法是个什么鬼



经过描述性统计后,怎么才能找到烂片的“黄金组合”,避免浪费电影票呢?处座想到了关联规则算法


关联规则,顾名思义,就是“有关联的规则”,反映的是一个事物与其他事物之间的相互依存性和关联性。


例如,电商通过分析顾客购买记录的数据,发现客户购买习惯的一些规则,例如,购买产品A的同时购买产品B的意愿往往比较强,据此调整货架布局、设计促销组合可提高销量的提升。这里的关联规则就是A→B。


但是购物订单千千万万,每个人的需求也不尽相同,如何知道哪些商品组合是满足大部分人需求的呢?关联规则中用3大关键词来分析规则的有效性,分别是:支持度(Support)、置信度(Confidence)与提升度(Lift)。


支持度(Support)


支持度是两件商品(A∩B)在总销售笔数(N)中出现的概率,即A与B同时被购买的概率。支持度越高,说明越多人会同时购买商品A与商品B。


置信度(Confidence)


置信度是购买A后再购买B的条件概率。置信度大说明购买A的客户很大期望会购买B商品。


提升度(Lift)


提升度表示先购买A对购买B的概率的提升作用,用来判断规则是否有实际价值,避免出现“伪规则”。如果大于1,说明规则后商品在购物车中出现的次数高于商品单独出现在购物车中的频率,规则有效;小于1则说明规则无效。


总的来说,支持度度量了商品出现的频次,置信度度量了规则的可靠性,提升度度量了独立性。三者互相牵制影响,一起说明了规则的有效性。通过对三个角度的数值限制,可筛选出有价值的“规则”。


说白了,关联规则其实就是找到哪些商品篮子的组合最普遍受到欢迎。于是处座脑洞一开,一部电影的演职员组合不就是一个“商品篮子”嘛!是不是也可以用关联规则探究探究其中的规律呢?



用关联规则算法挖掘烂片“黄金法则”



正如上面提到,国产电影的烂片比例越来越高,究竟是谁在其中做了贡献?要怎样避开烂片呢?我们根据6分以下的528部电影的数据,对演员、编剧、导演分别挖掘关联规则,结果如下。


演员和烂片的关联度



可以看到,出演烂片数最多的演员竟是“大名鼎鼎的配角”林雪——今年刚凭借《树大招风》获得亚洲电影最佳男配角;作品量较为丰富的他拍过的好片烂片都不少,从他的经历我们或可以推测,电影的质量受到配角的影响是有限的,必须要考虑到导演、剧本以及主演等问题。


林雪之外,其他人的烂片作品量并没有明显差异。不过涉及到古天乐、曾志伟等人,人家作品丰富,至少还有几部拿得出手的电影作品,譬如《窃听风云》、《无间道》等,而以包贝尔、黄晓明、杨颖为首的明星艺人们,其参加的综艺节目评分似乎都高于电影作品,有点说不过去吧?



对于关联规则,我们去重后发现烂片电影演员帮主要由三部分组成——“小时代姐妹花”、“四大名捕组”与“东北小分队”。神奇的地方在于,组合的第一部电影明明得分不高,却接连推出了四部,为“辣眼睛”事业奋奋斗不息的你们难道不会心痛吗?


导演和烂片的关联度



上图中,左侧是导演作品总数,右侧是各导演在烂片中的作品量。可以看到,在烂片中贡献最多的就是王晶大导演啊!


而产量丰富的大导演也有失手的时候,比如张艺谋;而另一方面,郭敬明、钟少雄等人的作品则几乎每部都是烂片,阿甘的烂片率也不低。他们或向我们展示了什么叫做“隔行如隔山”,或身体力行地展示了一位导演(对烂片)“持之以恒”的坚强毅力,令人深感佩服。


此外,一般导演都有各自擅长的影片类型和风格,为了改变和创新,会与其他导演合作拍片。那么哪些人的合作往往会为烂片家族的增砖添瓦呢?接下来看看这些数据的关联规则结果。



具体来看,组合{庄文强,麦兆辉}、{邓超,俞白眉}、{陈嘉上,秦小珍}位列榜首,以{邓超,俞白眉}为例,他们的《分手大师》和《恶棍天使》)可不是让人一言难尽?另外,在豆瓣电影中单独去查钟少雄,发现他和王晶合作的9部作品中出现了5部烂片,其余的四部最高分也只有6.4,如果说一个巴掌拍不响,他和烂片量丰富的王晶又究竟是谁影响了谁呢?


编剧和烂片的关联度



和导演类似,左侧是编剧的作品量,右侧是烂片中的作品量。其中又出现了王晶、郭敬明等人的名字,因为不少导演都会自己参与编剧工作。除此之外,我们发现张炭、谭广源等人编的作品中一大半都低于6分,这可以是帮我们在选择电影时做出明智的选择。



至于编剧组合,可以看到{杨梅媛,文隽}、{冯勉恒,谷德昭}、{王芸,赵梦,徐静蕾}与{陈嘉上,谭广源,温瑞安,王思敏}的烂片作品较多。令人唏嘘的是,当年文隽也有过《阳光灿烂的日子》、《风云》这样的经典作品,影响力深远,但后来其作品质量日渐下降,而与杨梅媛合作的《京城81号》、《绣花鞋》等恐怖片更是惨不忍睹。



用关联规则算法挖掘佳作“黄金法则”



令人欣慰的是,在烂片洪流中依然有一些优秀作品让我们对国产影片还愿意抱有希望。下面对好片(>=8分)的498部电影数据进行类似的分析。



演员和佳作的关联度



而在演员中,“哥哥”张国荣的作品评分很高,张曼玉、姜文等人作品评分也较为稳定,而天王“刘德华”的作品虽然数量丰富但评分却参差不齐。



在关联规则中,支持度最高的就是刘晓庆、傅艺伟的“红楼梦系列”演员团队,一个系列、6部电影的数量对我们的算法结果确实起到了很大影响;而在{罗家英,李健仁,周星驰}的组合中,“唐僧”和“如花”让我们看到配角与主角默契配合、对立衬托为电影带来的闪光点的能力;其余的梁朝伟、林青霞、陈慧琳等香港演员的组合大都出自王家卫、徐克、刘伟强的作品,可见有导演的态度与能力对于电影的影响不可忽视,一位有想法的导演与尽职尽责的演员搭配后,将有无限美妙可能。在这里也不禁令人感叹,香港电影对于华语片的重要影响。



导演和佳作的关联度



从导演“琅琊榜”来看,李安导演简直一股清流,作品不多,却部部经典。而王家卫、侯孝贤等大导演则凭借自己独特的风格紧随其后,质量稳定;杜琪峰、徐克等也在丰富的作品两种贡献了不少佳作。有趣的是,登上了烂片榜的张艺谋在好片榜上同样位列前茅,作为“第五代导演”的代表人物之一,他在输出中国文化方面的努力虽然不一定有效(譬如《长城》?),也算是有自己的想法和导演应有的态度。



从关联规则的结果来看,能合拍出好片的导演组合主要是90年代的老导演们,比如《小叮当》等经典儿童故事片的导演{陈方千,谢添},连拍六部红楼梦系列的{赵元,谢铁骊}等等。此外,单独观察在烂片榜也出现过的麦兆辉,可以发现其与刘伟强的合作电影分数较高,而与庄文强的合作作品分数较低,差异明显,耐人寻味。



编剧和佳作的关联度



由编剧数据可得,谢逢松、谢铁骊为代表的老一辈占据了榜单不少篇幅;当下还比较活跃的编剧中,王家卫、贾樟柯等人的优秀作品率较高。有趣的是,可能是作家老舍的作品简练且故事性强,被成功翻拍成不少电影呢。



在关联规则中,不少编剧组合都是拍了优质的系列电影成为经典,比如{庄文强,麦兆辉}的无间道系列,{吴承恩,刘镇伟}的大话西游系列,还有{谢逢松,谢铁骊}的红楼梦系列等;也有如{曾瑾昌,周星驰}这样多次合作的老搭档,质量稳定,时不时留下几部经典好片。

综合来看,我们得到了这样一个重要的电影购票TIPS——

“天王”、“最佳男配角”等演员的荣誉称号并不能保证电影的质量,因为电影的导演、编剧也起到很重要的作用。“明星”不等于演员,群星荟萃也可能是一锅乱炖。但若就是喜欢“小花”、“鲜肉”的颜,看真人秀性价比更高!


处座祝愿华语片精良制作越来越多,祝愿更多优秀的电影工作者能受到观众的爱戴。


备注


本文数据获取自豆瓣中国电影,由于分类问题,数据可能出现遗漏,但经人工检验,不影响整体分析结果。

由于作品总量相较于导演、编剧、演员的数目较小,所以本文关联规则中支持度的设置限制也较小。

关联规则不一定是分析电影数据最合适的算法,在此作为一个小探究。实际上也可以把导演、编剧、演员放在一起挖掘关联规则。



    阳春白雪

本文作者介绍:


阳春白雪,爱笑爱生活,爱数爱科学。一个在数据科学家的成长道路上奔跑着的元气少女!


▼▼▼


欢迎关注朝阳35处公众号,定期分享数据挖掘和人工智能前沿技术,探讨其在风险控制、反欺诈等金融业务中的实际应用,每周涨点知识,多点谈资。


▼▼▼





▼▼▼


 法律声明

前海征信官方微信及公众号“朝阳35处”所发布的原创文章,未经公司书面许可,任何机构、个人或团体均不得转载、全部或部分修改。非授权的转载、全部或部分修改均不代表前海征信的观点和立场,且前海征信保留追究相关法律责任的权利。






信用·让你我更好互联



看你靠不靠谱,点阅读原测分