题图来源:
背景图
NBA东西部决赛分别于北京时间5月28日、29日结束,无论是骑凯还是火勇,皆是打足了七场才决出胜负,这出「双抢七」剧情跌宕起伏,紧张刺激。
自1958年NBA东西部决赛改为七场四胜制后,除了这次,东西部「双抢七」60年来只出现过两次,上一次还是1979年。紧接着而来的是两场总决赛,JR的脑回路,老詹的眼睛和神勇,追梦的手指,库昊的射程,将各路球迷点燃。
也正是因为这样,这段时间来,各位球星的黑吹风向飘忽不定,今天还被退役了,明天就成了稳拿FMVP,让各位只想好好看球的朋友们在虎扑上瑟瑟发抖,不敢发言。
这股邪风让我不由得想起今年年初在知乎上被各位知乎篮球板块大佬纷纷参与的话题——「虎扑到底是不是詹扑?」后来发生的
@张佳玮
张公子被骑士专区取消「
优质内容创作者」
称号一事将此话题推向顶峰,知乎篮球板块的各位也似乎纷纷达成观点一致:
虎扑就是詹扑,只能说詹姆斯的好话。
然而,勇士作为近几年骑士的头号对手,作者也经常能看到有人发表类似「虎扑风向向着勇士」、「湿乎乎上吹库里才是政治正确」、「湿乎乎里的老詹无脑黑特别多」的观点,
即使在知乎
。
作为一名严谨的数据分析工作者,作者认为单凭直观感受和个例得出的结论是不足以服众的,于是作者将虎扑最大也是各路球迷都会去的板块——湿乎乎——拿出来管中窥豹,见见一斑。我们一起来看看:湿乎乎到底姓詹还是姓库?
注1:由于数据量级以及数据完整性的考虑,在数据scope范围上我们使用的都是2016年1月1日至2018年5月23日的数据。
湿乎乎的话题一般都是啥?
将湿乎乎2016年1月1日至2018年5月23日的近28万个帖子的标题进行切词,生成词云如下:
排名前十的词分别是:球员、勇士、NBA、詹姆斯、水平、赛季、球队、骑士、库里、季后赛。这十个词里只有「詹姆斯」和「库里」是球员名字。典型的湿乎乎标题也差不多可以从这几个词里挑几个写出来,例如:
「[流言版]库里:勇士是本赛季季后赛的夺冠热门」
「詹姆斯这球什么水平?」
既然要探讨湿乎乎到底是姓詹还是姓库,我们操作分为两步下手:
在统计了语义资料切词结果、查看了众多新闻快讯后,根据近两年多来国内的讨论焦点,作者筛选了16名热门球星作为湿乎乎「命姓」候选池,并从感观角度将他们分为四档,更靠前的档更容易被广大球迷讨论,我们可以在后面的数据中验证这个分档到底对不对。
注2:头像图片来源于
Washington Post
。华裔球员林书豪没有找到头像。
注3:本文只讨论现役及近两年内退役的球星,故老爷子MJ、答案AI、大姚等人被人工剔除。
湿乎乎在过度关注谁?
对2016.01.01至2018.5.23的帖子正文进行话题识别,并与球星池内所有巨星相匹配后,我们先来看看各位球星的声量总量排行:
注4:声量定义为「该帖标题、副标题及正文中权重分别为2、1、0.5,加权出现频次后求和」。
这两年多来话题不断的詹姆斯(
94129.5
)和库里 (
63385
)毫无悬念地拿下了前两强,老詹在虎扑的声量确实是很恐怖,是库里声量的1.5倍,他的三名(前)队友欧文 (
26259
)、韦德 (
22162
)、乐福(
10182.5
)的声量加和之后,还需要加上16至17赛季MVP威少威斯特布鲁克 (
36042.5
)的声量才能将将超过他。
比较有意思的是,在2016年退役的老科拿到了第四位,挤掉了近两年做了大动作的凯里欧文进入前四,有点60亿科密可不是吹的的意思。不过,当我看到百度指数之后,才真正惊叹了一番:
百度指数上,四人2016年1月至今的平均指数排名是科比 > 库里 > 詹姆斯> 杜兰特,而且由于老科退役那段时间的指数过于高,顶的这张图都没办法做其它分析了,鉴于老科已经退役不会再在球场上边喷垃圾话边大杀四方了,咱们还是不叨扰老科先,放他去继续做他的Detail节目好了。
着重分析詹姆斯、库里和杜兰特三人:
从百度指数的情况来看,2016年一直到总决赛之前,库里都是作为自带流量党,高潮迭起,而詹姆斯的骑士逆转赢得了总决赛,老詹的指数飙升,再到杜兰特转会,当了一会儿老大,之后的时间里基本都是库里和老詹轮流做老大,除了17年总决赛杜兰特FMVP翻了一把身,其他时间杜兰特都是被两位稳稳压住。
而虎扑声量与百度指数不同的地方在于:
-
如果说对全网关注篮球的朋友来说,杜兰特的转会是突如其来的一个大浪(指数值达到老詹夺冠时指数的3/4),那虎扑则是惊涛骇浪,居然是老詹夺冠时声音的两倍。
-
这是最让我吃惊的地方,17年总决赛勇士夺冠后,在百度指数上库里、杜兰特和詹姆斯的声量都达到了2016年9月-2018年5月的峰值,而
在湿乎乎,好像什么都没有发生一样
,詹姆斯的讨论还是要高过库里和杜兰特二人,而且在欧文要求离队时詹姆斯声量到达了一个新的顶峰。
-
整体来说,百度指数中库里与詹姆斯基本保持互有胜负的状态,而湿乎乎声量指数中,2016年8月后,无论发生什么,老詹的讨论始终遥遥领先库杜二人。
看到这里,我们不难得出结论,
相比全网的声量,老詹在湿乎乎上的确是要更多地受到关注
,甚至在2017年总决赛期间,库里和杜兰特只是在球场上击败了詹姆斯,湿乎乎声量上而言,他们还是败者。
湿乎乎在过度赞美谁?
到了情感分析部分,作者陷入了沉思,如何确定球星A在湿乎乎上比球星B更受欢迎呢?直接使用好评率吗?乍一想直觉正确,但仔细想想单纯比较正面评价率,无法得出虎扑是否超常。
假如说,全网有80%对A球员的评价是正面的,但在虎扑上仅仅60%,同时假设全网对B球员的评价有20%是正面的,但在虎扑上却高达50%。很显然,虽然虎扑上A的好评率60%依然大于B的50%,但相比于全网,虎扑是一个更偏向于夸赞B的地方。
如果情感识别的好评率缺少参照物对比,不能作为发现湿乎乎讨论对某球员情感的超常倾向。所以,要看虎扑情感是否超常,也要像在声量分析中用百度指数做参照一样,找一个参照物。
为了更加清楚地看到各位在虎扑的受欢迎程度,我们想到了对比全球范围球迷的NBA全明星投票。我们取出虎扑所有的正面评价的发言,计算各位球星话题在总量内的占比,再将其与全明星投票结果进行对比。这相当于我们把虎扑看成一个投票的地方,你的每一次正面发言或点亮都在为所提及的球星进行投票,用这个「虎扑投票结果」和全明星投票进行对比。
注5:NBA全明星投票结果:
all-star-voting-results
考虑到16名球星池中并非所有球员都参加了16-18三届全明星,我们并非将票数简单加和,而是每位球星每年得票数先除以16名球星的总票数,再进行求平均数处理,同样的方法计算出湿乎乎「投票」得票率,结果如下:
从图中可以看出:
-
科比由于2016年退役,那一赛季得票极多,故保持极高平均全明星得票率,稳居第一,而在湿乎乎得票率排行中则是老詹第一;
-
相比全明星投票,在湿乎乎上更多地被表达正面情感的球员有老詹、登哥、炮、韦德、阿杜、书豪。
把声量和情感优势比结合一下看看
拿到湿乎乎声量和百度指数的比较,以及湿乎乎「投票」与全明星投票的比较,我们画出一张二维四象限图。
横轴是湿乎乎「投票」球星得票占总票数的百分比 除以 全明星平均得票率占总得票率的百分比,反映的是该球星在湿乎乎上相对于全社会是否更倾向于被认同;纵轴是球星在湿乎乎的声量指数 除以 百度指数,反映的是湿乎乎上,该球星是否相比使用百度的关注NBA用户更容易被关注。
让我们来盘点一下: