专栏名称: 鸟哥笔记
学运营推广,上鸟哥笔记!
目录
相关文章推荐
运营研究社  ·  400块一张的「纸片茅台」,被中产买爆了 ·  12 小时前  
91运营网  ·  160个常见DeepSeek提示词 ·  昨天  
运营研究社  ·  小红书打通美团,“小红团”使用手册 ·  昨天  
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  2 天前  
运营研究社  ·  封号、禁言!2025年在小红书导流,要换思路了 ·  2 天前  
51好读  ›  专栏  ›  鸟哥笔记

10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”

鸟哥笔记  · 公众号  · 运营  · 2016-12-28 18:32

正文


1、成为新媒体运营领域的“增长黑客”


1.1 一般意义上的“增长黑客”


“增长黑客(Growth Hacker)”,这个近几年来风靡中国互联网界的新兴概念,滥觞于美国硅谷互联网创业圈,国内则是由范冰首先引进,他的著作---《增长黑客:创业公司的用户与收入增长秘籍》,使这个概念深入人心。


结合国内外关于“增长黑客”的表述:“增长黑客”是以数据驱动营销、以市场指导产品,通过技术手段贯彻增长目标的一群人。这就需要他们既了解技术,写得了代码;又能了解人性,能捕捉用户的心理感受和真实需求;最重要的是,他们经常能突发奇想,发挥创意,大开脑洞,以小的投入获取较多的用户和收入。


一言以蔽之,“增长黑客”就是具备各种跨界技能,可以利用各种巧妙的手段以极小的成本获取大量用户,实现最终的收入增加。


“增长黑客”让那些资金不够充裕、前期资源紧缺和初始用户匮乏的初创型互联网初创团队看到了“四两拨千斤”的希望,小投入也能办大事。


“增长黑客”的一个很好的理念,但它在不同的互联网领域有着不同的形态,具体的实现手法也不尽相同,比如在新媒体运营领域。


1.2 新媒体运营领域的“增长黑客”


新媒体是跟随互联网兴起的一个新兴媒体形态,它已经在很大程度上颠覆了以往的纸质刊物、广播及电视等传统媒体,重要性不言而喻。关于它的概念和内涵,笔者不想多说,网上有很多的详细介绍。在这里,笔者认为新媒体最为重要的一个特征是:


人人都可以是信息的生产者,人人也都是信息的传播者。


这意味着无论是谁,包含企业、机构还有个人,都有机会成为这个新媒体时代的成功者。咪蒙、一条、十点读书即是例证。


然而,随着中国的互联网时代进入下半场,新媒体行业也从野蛮生长的时代进入“弱肉强食”的“丛林时代”,常规的新媒体运营手段(包括内容、展现形式及推广方法等)已经很难从用户增长缓慢和收入增长停滞的困境中突围出来。


这种情况下,广大新媒体从业者们急需采用精细运作、量化分析的科学手段去进行新媒体运营,以适应这个足以革新我们思维观念的“大数据时代”,而“增长黑客”正是一剂良方。


从前面对“增长黑客”的介绍中,我们可以发现:


“增长黑客”是一个多面手的角色,需要掌握跨领域的知识,其中最为核心的技能即是懂技术、精通数据分析。


然而,技术(码代码、编写程序等)和数据分析(数学知识和BI软件操作等)对于很多做新媒体运营的小伙伴来说,是十分棘手的两样事物:很多从事新媒体运营的小伙伴是正儿八经的文科生毕业,文案和排版方面,他们可以说是“长袖善舞”,但技术和数据分析却可能是他们的“梦魇”。


鉴于这种情形,笔者提倡“人+数据驱动思维+工具”理念---以人为本,从运营者自身的知识结构出发,以数据/量化思维作为方法论,用工具辅助运营,从而做到扬长避短,把自己的精力集中在重要的事情上。


笔者在这里特意收罗了10几款跟数据分析有关的工具,以弥补技术小白和数据分析小白技能上的匮乏,而且掌握它们不需要很懂技术,连数据分析这项技能也能借助它们轻松get。


值得注意的是,本文所要介绍的工具,并不是狭义上的“工具”,如可视化工具、文本分析工具和事件热度趋势/预测分析工具,还包括数据新闻这种广义上的“工具”,它们都是为达到、完成或促进新媒体运营效果的一种手段。


如下图所示,以下是本文的行文结构:



新媒体运营的“增长黑客”数据分析工具箱

2、文本分析工具


2.1 NLPIR在线系统 (http://ictclas.nlpir.org/nlpir/)


NLPIR,即“自然语言处理与信息检索共享平台”的英文缩写, 打开该网址,即可进入主界面---“语义分析系统”,顾名思义,它是一个在线的中文语义分析工具,因为非商业化,它对处理文本的篇幅大小也有限制,只能处理3000字,可以给热衷于文本分析的小伙伴过过瘾,但要想用于商业目的,那只能呵呵了。



NLPIR在线系统的首页


上图中间部分的11个圆圈即是该系统的所有功能,但其中有几个只是挂出来,目前还未实现,结合新媒体运营工作中的实际需求,笔者只介绍其中几个比较有实用价值的功能模块。


以下以《破5.5亿元日媒:和中国联手有钱赚》这则新闻作为测试文本,笔者来给大家介绍下这个系统中的实体抽取、词频统计、文本分类、情感分析和关键词提取这5个比较有实用价值、且准确度较高的功能模块。


2.1.1 实体抽取

NLPIR中的“实体抽取”功能模块可以智能识别出测试文本中出现的人名、地名、机构名、媒体、作者及文章的主题关键词,这是对语言规律的深入理解和科学预测,它提炼出的词语不需要在词典库中事先存在。


实体抽取的图表效果支持力导向图和弦图这两种形式,如下图所示:



测试文本“实体抽取”的2种形式


上图中,从“文本”这个一级类目中,分别分出了“关键词”、“地名”、“时间”这3个二级类目,由此能大致判断出测试文本中包含的事件元素,如主题是关于电影的,涉及国家(地区)间的对比,还有纵向时间维度的分析,一些关键词能让我们把握文章中重要的词句。


2.1.2 词频统计

在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。


在文本分析中,词频统计是较为常规的、同时也是最为重要的一个环节,它用来评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。


NLPIR只展示了名词、动词、形容词这3种开放词类,这个3个此类也是一段文本中最为重要的3个部分:


  • 名词介绍文章中的各个主体,能让我们知道文本描述的对象是谁;

  • 动词表征各个主体的动作和行为,能让我们知道关于主体发生了什么;

  • 而形容词则能描述主体及动作/行为的特征,能让我们知道主体及其行为/动作的性质、 状态、特征或属性。


NLPIR的词频统计只展示了上述词类的Top 10结果,以折线图和条形图的形式进行展现。看了下面的词频分类展示,联想文章标题,我们很自然的了解到《你的名字。》这部电影在市场上获得了不错的业绩,引发中日媒体的广泛报道和关注…



测试文本的词频统计呈现


2.1.3 文本分类

NLPIR“文本分类”部分目前所展示的类别只是新闻的政治、经济、军事、交通等,分类有待扩展和细化。


NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外,它还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。


然而,从测试的效果来看,这个功能模块的分析效果还不甚准确,它没有“娱乐”这一分类,但起码也应该划入“其他”这一类中。。。



测试文本的“文本分类”结果呈现

2.1.4 情感分析

NLPIR的“情感分析”提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。大类上,“情感分析”部分分为“正(面)”和“负(面)”这两大类情感,这是内层;在外层,两个大类又分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7中细分的情感,这也就是大家常说的“七情六欲”中的“七情”。


目前正负面的判断已经较为成熟,但鉴于汉语的博大精深和词汇语义(用法)的波谲多变(反讽、贬义褒用、语境变化等),细分情绪的判断准确度还值得观察。



测试文本的“情感分析”结果呈现


观察上面测试文本的情感分析效果图,再比对原始文本,这个判断大致上是准确的,但负面的部分应该比实际的占比小,尤其是“恶”这个部分---笔者并未发现有出现厌恶的语句和词汇。


2.1.5 关键词提取

这里的关键词提取和前面的词频统计有一定的联系,但二者的算法(实现方法)是不一样的:


词频统计: 词频统计的是一个词在文章中出现次数,出现的次数越多一般越重要;

关键词提取: 关键词提取则是依据TF-IDF(term frequency–inverse document frequency,词频--反转文件频率),用以评估一个词对于文本内容的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。比如,“如果”、“也”、“你们”等词汇,他们出现的频次很高,但它们的重要性就很弱。



测试文本的关键词分析


从上图中测试文本的“关键词提取”中可以发现,这部分和“词频统计”部分既有重合也有明显区分,原因就在于上述的算法不同。


值得注意的是,不论是“词频统计”还是“关键词提取”,已经设置了“停用词(stopwords)”,在进行上述分析的时候,自动的将那些无明显意义的副词、冠词、代词给去掉了。


2.2 图悦(http://www.picdata.cn/)


图悦是一款在线的热词分析工具,它可以对于载入文本或指向文本内容的链接进行词频提取和词语(重要性)权重分析,并可以导出成excel格式的文件,便于后期分析和处理。



图悦的主界面


处理热词分析,图悦还可以自定义词云形状,不过这里的词云效果不敢恭维,下面笔者将会介绍一个更优秀的词云制作工具,让经图悦处理过的词频焕发出个性化的风采。


值得注意的是,图悦导出的excel文档有三列---提取出的词语、词频数、词汇权重。后两个指标,笔者已经在前面做过论述,不明白的小伙伴可以“倒带”回去看看。具体的使用方法笔者将在下面的可视化自定义词云部分详述。


另外,因为这款词频分析工具只能导出150个词汇,对于处理一些复杂且大量的文本就会捉襟见肘。鉴于此种情况,故笔者编写了一个能处理大容量TXT文件的exe小程序,供有词频分析需求的小伙伴免费使用。(后台回复“清晰文档”,即可获得名为“文本关键词提取及情感分析”的RAR压缩包,解压后即可使用。)



笔者编写的提取大容量TXT文件的文本关键词分析器


这个小程序是按关键词的重要性程度来提取的,某种意义上讲会比词频分析提取的关键词更准确一些,权重值介于0~1之间。若要获得或词频一样的效果,只需将权重值乘以100/1000,然后取整即可,感兴趣的小伙伴可以在公众号的后台获取到这个关键词提取利器。


注意:该小程序内含40W以上的中文常用词汇,但不支持英文文本分析,仅供个人学习使用。


2.3 Tone Analyzer(https://tone-analyzer-demo.mybluemix.net/)


Tone Analyzer是一款由IBM推出的、基于云计算的人工智能文本分析工具,能对电子邮件、博客文章以及手机短信进行感情色彩分析,以确定它的措辞是否如实地表达了你的愤怒、肯定、高兴或者悲伤等感情。



ToneAnalyzer的主界面


这一用来帮助评估和改善文字沟通当中的语气的服务目前尚处实验模式,如获成功,或将改变未来商家和营销人员同消费者、客户的沟通方式。


更重要的是,它可以应用到新媒体运营者的内容校正中来:


  • 用来查验文章内容的调性和风格,了解自己的文字给人留下的印象如何,以使公众号的内容运营不偏离预设的定位。

  • 帮助品牌运营者和内容输出分析,撰写何种风格的文案才可以引起受众的共鸣。


Tone Analyzer的评价系统包含三个维度,各个维度及其简介如下图所示:



Tone Analyzer的评价系统的三个维度


以下是Tone Analyzer的使用案例,大家可以从下面的几个模块中获得对文字信息的洞察,这部分笔者不做详述,感兴趣的小伙伴可以去官网查阅文档。



输入文本信息和选择分析类别




文本信息3个维度的分析结果



文本信息段落的逐行分析(附有标记)

3、热点捕获/趋势预测工具


3.1 搜索指数型


这里的搜索指数型趋势工具指的是,它们的数据绝大部分是基于用户的搜索行为,即用户搜索关键词而形成的数据及其展示,有一定的预测价值,但缺点是并不能发现搜索行为背后的原因。


3.1.1 百度指数(http://index.baidu.com/)


关于百度指数的介绍,笔者仅贴出部分官方关于功能的介绍:


百度指数是以百度海量网民行为数据为基础的数据分享平台,它能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词,帮助用户优化数字营销活动方案。


3.1.2 微指数(http://data.weibo.com/index)


微指数是新浪微博的数据分析工具,基于新浪微博的全量数据,通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。微指数分为热词趋势、实时趋势、(信息分布)地域解读和(用户)属性分析4个板块。


“热词趋势”部分与百度指数的趋势很相像,但它有一个更为有价值的地方---点击趋势曲线中的各个节点,会显示出关注度排名靠前的3条微博,可以做到“知其然并知其所以然”。



微指数的热词趋势图


“实时趋势”则反映该热词近一天的走势情况。“地域解读”即该热词相关微博信息的地域分布情况。


最后一个功能板块是“属性分析”,这部分能获悉关注该热词及其相关事件的人群画像,有性别、年龄、兴趣标签比例和星座标签比例这4个人群属性。



微指数的“(人群)属性分析”


3.2 现网信息型


现网信息型,顾名思义,就是该类工具的主要数据来源于现有的网络信息,而不是基于网民的搜索行为,因而通过它可以找到热词或事件关注(量)发生波动起伏的原因。


一般来说,这类数据产品的典型应用领域在舆情领域(包括舆情监测、品牌口碑监测等),比如新浪微舆情(http://wyq.sina.com)。



新浪微舆情的主页


以下是新浪微舆情这个大数据分析工具的介绍,我们能从中看到现网信息型热度分析工具的基本原理:


“利用独有的分布式网络技术,对互联网上舆情相关数据源进行完整采集,同时根据用户预定的监控关键词对全网数据进行补充获取。“新浪微舆情”可以在很短时间内收录到国内外重要网站、论坛、微博、微信公众号、贴吧、博客等互联网开放平台的相关信息,通过中文智能分词、自然语言处理、正负面研判等大数据处理技术对收录到的信息进行处理并分析…


可以看出,现网信息型热度分析工具的数据基于现有的全网信息搜集,并经过自然语言处理等技术对文本信息进行信息的“去粗取精”,从而有效把握事件的重要方面和影响因素。“


下面,笔者来详述新浪微舆情的几个很有价值的功能模块---分别是热度趋势分析、信息监测、事件分析和微博传播分析,它们可以很好的运用到新媒体领域,可以在热点追踪、内容规划、受众画像分析和营销分析方面给予运营者们以有益的指导。


3.2.1 (事件)热度趋势分析

在地震救援中,有一个概念叫做“黄金72小时”,它是地质灾害发生后的黄金救援期。因为救援界认为,灾难发生之后存在一个“黄金72小时”,在此时间段内,灾民的存活率极高。


同样,在新媒体内容运营追踪热点事件方面,也存在类似的定律,能在最短的时间内,把握观众所关注事件的发展走向和舆论倾向,因势利导,就能成功的“借势“。

新浪微舆情的(事件)热度趋势分析中有一个能反映事件关注度的一个数据指标---热度指数,它的全称是“网络传播热度指数”,是指在从新闻媒体、微博、微信、客户端、网站、论坛等互联网平台采集海量信息的基础上,提取与指定事件、人物、品牌、地域等相关的信息,并对所提取的信息进行标准化计算后得出的指数。


热度指数能客观反映事件、人物、品牌、地域等在互联网上的受关注程度。热度指数所呈现的数值为0~100,数值越大,表明其网络受关注度越高。


下面举个栗子,拿前不久广受关注的“淘宝被列入恶名市场名单”事件作为分析对象,来看看(事件)热度趋势分析的各个功能模块是如何运用到新媒体运营领域的。


(1)热度概况和热度趋势

从下图的“指数概况”部分,我们可以看到,淘宝被列入恶名市场名单”在72小时内(当然也可以选择24小时这个时间区间)的热度同比增长达到62315%,表明互联网上关于该事件的媒体报道和公众评论信息出现骤增的情形,且指数有将近6%的增幅,幅度不大结合这两个指标可以看出,在近72小时内该事件很火热,且热度呈现稳步增长的趋势。值得注意的是,这里的“同比”和“指数变化”是针对此次查询的72小时区间和上一个72小时区间的数值进行对比的。


在“热度趋势”部分,由时间轴和热度指数轴构成的折线图反映了近72小时内该事件热度指数的变化趋势,这个折线图的分析意义重大,能起到预测事件未来热度走势的神奇作用。


在分析热度指数的折线图的时候,要注意从微观层面和宏观层面上的把握。在微观层面上,要特别注意折线图中比较重要的节点,特别是峰值节点,它代表其对应的时间点它的关注度较高,要注意发现事件爆发的时间规律;在宏观层面上,要看整条折线的整体走向,是整体呈现上升趋势,还是呈现关注度的下降趋势,当情况属于前者时,新媒体运营者们则可以继续跟进事件的发展,接着“借势”和“跟风”。



热度概况及热度趋势分析


既然知道了事件热度的峰值节点出现在哪个时间点,这时我们肯定想了解这些时间区间内事件关注度骤然上升的原因。还好,紧接着“热度趋势”,下方给出了其中最突出的峰值节点出现的原因,以重点信息聚类的方式呈现。


在下图中,呈现的是12月23日 08时,达到24的峰值时的重点信息聚类。给出了这些热门文章的标题和来源站点,点击标题即可进入相应的网页,查看源信息。



最突出峰值节点的信息聚类


这里需要强调的是,对于最突出峰值节点的重点聚类信息的解读十分重要,因为这些文章阅读数高,抑或是转发量高,在某种程度上表明了公众对于这些信息的认可度高,能代表一定的公众舆论倾向。作为新媒体内容运营者来说,引导公众看法难度太大,不是人人都能做成意见领袖的,能因势利导的输出顺应公众观点的文章可能是上策。


(2)事件热度信息的关键词词云

这里的关键词云是由互联网上各个渠道的海量信息进行中文智能分词和自然语言处理所得,浓缩了关于该事件的TOP60关键词,能在一定程度上反映出事件的各个要素。


词语的大小代表该词出现次数的多寡,也表明了该关键词对于事件的重要程度如何。在进行内容组织的时候,可以考虑这些词频数高词汇所代表的方面,如在“淘宝列入恶名市场名单”这一事件中,除了“恶名市场”、“名单”这些出现在标题之中的关键词外,还有“加大力度”、“纳入保护”、“知识产权”等关键词表征的方面作为文章内容的着力方向。



“淘宝列入恶名市场名单”事件的关键词词云


(3)事件热度信息的来源类型

“信息来源”部分中,反映出了事件信息的来源占比情况,比重较大的部分是需要运营者重点关注的渠道。


“淘宝列入恶名市场名单”事件的信息在“微博”这一信息渠道中的比重最多,其次是“网站”、“新闻”、“客户端”等,具体的数据为:微博(49.32%)、网站(27.73%)和新闻(10.13%)。


“淘宝列入恶名市场名单”事件的信息来源分布


针对微博信息量为何占据如此大的比重这个问题,笔者找到了今年11月份新浪微博官方的一份关于微博UGC的数据,顿时了然:



微博2016年PGC、UGC几项关键数据


新浪微舆情是新浪微博旗下的子公司,拥有全量的微博数据,再加上腾讯微博的信息量,因而其他渠道的信息量比例会被微博这一渠道巨大的UGC内容给稀释掉,形成绝对信息量不小但看起来很少的效果。


(4)事件热度信息的地域分布

(事件热度信息的)地域分布反映的是搜索事件的全网信息量在全国各地的分布情况,这一点与百度指数的原理一样。


“淘宝列入恶名市场名单”事件的信息地域分布


从地域分布来看,与“淘宝列入恶名市场名单”相关的信息主要来源北京(3561条)、广东(1139条)和上海(834条)。


(5)事件热度信息的关联词分析

事件热度信息的关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇。


下图中的关联词和弦图和对应关联度数据表反映了该事件的关联词情况。



“淘宝列入恶名市场名单”的关联词分析


通过对与“淘宝列入恶名市场名单”相关的信息进行分析后可看出,与其核心词恶名市场关联度最高的词语为淘宝(100.00%)、美国(99.06%)和名单(97.19%)。


3.2.2 信息监测

一直以来,(舆情)信息监测的主要用户是政府、大型企业和专业新闻媒体,因而对应的主要功能是倾听民意、监测自身(也包含竞品)的品牌口碑及动向,以及追踪热点事件走向等。此外,它可以通过各种预警设置,对关注事件产生的新信息进行第一时间的提醒,以免运营者遗漏重要信息。


实际上,信息监测可以用于新媒体领域,结合上面提及的“事件热度趋势分析”板块,媒体运营者可以有效的追踪热点事件的最新进展,做到不遗漏。


关于它的应用场景,笔者目前想到2个:


(1)文章转载的全网监测

笔者平时会写一些关于互联网数据运营的文章,发布在一些知名的互联网平台上,因此想监测一下全网转载的情况,比如笔者最近的一篇文章---“如何用数据分析,搞定新媒体运营的定位和内容初始化?”,在“信息监测”的监测方案部分设置好关键词后,选好时间区间,转载的详细情况和数据统计图表尽收眼底:



文章转载的信息列表



笔者文章转载的各种信息反馈图表


(2)关注信息的全网监测

运营者可以在监测方案中按设置指定的关键词,定向的追踪自己感兴趣的事件、公司、品牌和资料等信息。


以下是笔者在学习数据分析时,进行的关键词设置,多个零散词汇通过逻辑运算符形成了一个监测方案,可以无遗漏的监测自己关注的信息,同时系统也会过滤掉垃圾信息。



通过各种逻辑运算符设置信息监测的关键词


设置好监测方案以后,点击“图表分析”,即可看到如下图所示的各种监测方案信息量的可视化分析图表。



监测方案的信息量的走势图



监测方案的信息量分布情况



监测方案信息量的地理分布情况


再选择“信息列表”项,通过时间、地域、渠道等选项的筛选,我们就可以得到自己想要的信息了。此外点击其中一条信息,即可进入信息详情页,如下图所示:



监测方案的信息列表



监测信息的详情页


另外,这个功能模块还有几个功能,如下图所示,篇幅有限,感兴趣的小伙伴自己去试试吧。



“信息监测”板块的预警通知、监测日报和定向监测功能


3.2.3 事件分析

事件分析(包括全网事件分析和微博事件分析)指的是,输入近期事件或话题关键词,系统自动进行深度挖掘和多重分析,记录事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情传播路径、关键词云、发展态势、受众反馈和网民观点分析。


3.2.4 微博传播分析

微博传播分析通过分析单条转发量/评论量大的的微博,从而得到关于该微博的传播路径、意见领袖、用户画像和微博营销传播质量等。


下面贴一张大图让大家感受下:



微博传播分析的部分功能


4、可视化工具


俗话说:“文不如字,字不如表,表不如图”,一张富含信息量且外观时尚靓丽的图会给文章增色不少,会激起读者的好奇心,不知不觉的去图片中探寻信息,从而让文章的可读性大大增加,易于传播。比如这张图:



人人都是产品经理网站“产品经理”专栏所有文章标题制成的词云


怎么样,想学了吧?


不急,这个其实很简单,下面我将以实例详细的讲解制作这张图的步骤,即使是小白的你,也能做出这样精美的个性化词云。


4.1 个性化词云制作


我把个性化词云的制作分为3个步骤,即抓取数据、文本处理和词云制作,详见下图:



个性化词云制作的步骤


4.1.1 数据获取

从本质上讲,词云是反映某一特定主题的文本数据的可视化展示。比如,上面的乔帮主词云反映的就是“产品经理”专栏中较为热门的关键词/话题。所以,要制作一个“出彩”且有内涵的自定义词云,文本不能无规律,需要定向的获取特定的文本数据。

笔者对前不久上映且广受好评的电影《你的名字》颇感兴趣,想分析一下这部电影的市场反响如何,先聊聊这部分数据的获取。


对于影片的分析,首选当然是豆瓣电影,因为它是国内最具有参考价值的影评网站,从文本中能得到很有价值和有意思的信息。但考虑到文本数据获取的难易程度,我先介绍如下3个数据获取的方法。


第一个方法是自己编写爬虫,想要什么数据就去抓取什么数据,既经济(用爬虫工具会花钱),又会增加“自己动手,丰衣足食”的成就感,最重要的是,略施小计就可以躲避豆瓣的封IP机制。



用python编写爬虫抓取豆瓣影评数据


第二个方法是利用集搜客这样的爬虫软件去抓取数据,不需要编程技术,且简单易上手,但是可能会被封IP。


第三个方法是采用新浪微舆情这个大数据工具,因而不用豆瓣的评论数据,在互联网上进行全网信息搜集,获取有关该影片的热门文章标题作为分析的文本数据,这种方法是三种中最为轻松简单的,而且获取的是全网的数据,大家可以有选择性的选取自己需要的数据,操作步骤如下图所示:



用新浪微舆情获取文本数据


因为最近学了点Python,故笔者选择了用Python编写爬虫来获取了豆瓣这部分的影评数据。



获取《你的名字》豆瓣电影的影评数据


抓取后的数据整理成如下表格:



保存到本地的《你的名字》豆瓣影评数据


接下来,就是把文本数据单独取下来咯,全选“评论内容”这一列,把这些影评数据占到记事本上,作为接下来分析的“原材料”。


4.1.2 文本处理

一般情况下,文本数据的处理包含很多方面,如分词、词性标注、词频统计、文本分类、情感分析、关键词提取、文本摘要提取等。


在这里,制作词云只需要考虑关键词提取和词频统计这两个板块。


这里使用到的工具是前面提及的热词分析工具---图悦。将《你的名字》豆瓣评论的文本部分粘贴到上图中左边的文本框中,再点击右上方的“分析出图”,系统显示完成后,右边的预设词云会发生变化,此时点击“导出”,即可得到词频的csv文件。



经图悦处理得到的词频csv文件


这里去除词语和词频两列,用来进行接下来的词云制作。


4.1.3 词云制作

处理词云,笔者用到的工具是Tagul(https://tagul.com/create)。下面是它的的主页展示:



Tagul主页


(1)词频载入格式

在页面左上方的“Words”处,就是加载词语及词频的地方,这里需要注意一下它的载入格式。,如下表所示:



Tagul的词频载入格式


上表中,前两列的“Word”和“Weight”就是刚才经处理过的词语和词频,Color一栏则是设置该词语的颜色,这是个性化词云中很关键的一个要素,会直接影响到最终的词云呈现效果。这里可以不填写,那么在形成词云时默认随机生成颜色。如果要形成定制化的颜色,则需要设置采用16进制的色值,以下是常用的颜色代码表,即色值表。



常用的16进制色值表


与此类似,字体也可选可不选,需要定制的话,则可进行相应的设置。


“Repeat”这项则表示该词语是否会重复出现,填写“0”,则表示不重复,填写“1”,则表示重复。为了保持信息的精准度,减少噪声,一般选择填写“0”。


后面的URL链接就忽略了,因为有前面的设置,就不需要进行网页链接。


按照上述操作,出词语和词频两例外,笔者还定制了“Color”和“Repeat”这两项,结果显示如下。



最终的词语载入表


全选该表格的文字部分,将其粘贴到“Import Words”的文本框里,进行保存。


(2)载入中文字体

因为Tagul是老外做的一个在线词云制作网站,所以Tagul不支持中文,这需要我们载入能支持中文显示的字体,如下图所示,笔者载入的是“You Yuan(幼圆)”字体。



载入中文字体


(3)处理背景图片

加载了字体,可以说这是个性化词云制作的核心部分,词云最终效果的美与不美就在此一举。


值得注意的是,在载入图片之前的图片选取步骤时,需要选择背景和主题对比比较明显的图片。从接下来的图片预处理过程中,你会发现这一点的重要性。



词云自定义图片的初始状态


笔者选取的是《你的名字》最为标志性的一张海报,看起来很有感觉:既有男女主角的形象,也交代了他们所处的生活环境,中间则是影片中重要的提条线索---彗星。这张图初始状态看似杂乱,不好处理,但仔细观察,可以发现主体(男女主角)和背景(天空、城市和彗星)之间的对比度和色相差异还是很明显的。在Tagul的“Custom Shape”的设置中可以进一步处理背景和主体之间的对比度问题。



在“Shapes”处载入图片后,点击上载成功后图片的右下角“齿轮”,打开图片预处理。其中,“Threshold”处理景深,可以拉开/缩小背景和主体之间的差异;“Edges”则是处理主体轮廓的锐度,可以调节图片的清晰程度模糊程度。这里的要点是---淡化背景,清晰主体轮廓。



淡化背景,强化主体轮廓


好了,完成上面繁琐的步骤之后,现在是见证奇迹的时刻了,点击右上方大大的黑体字“Visualize”,待进度条加载完毕后,即可得到如下的最终效果图:



最终的词云效果图


4.2 网络可视化利器--- Gephi


Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具,下载地址为https://gephi.org/。网上目前比较权威的Gephi教程是在Udemy上的Ooof liu讲解的《Gephi中文教程》,地址为https://www.udemy.com/gephi/,看完这个部分仍有饶有兴趣的小伙伴可以去学习下。


下面是由Gephi制作的各种网络图,这些图不仅包含了丰富的信息量,而且极富美感,在吸引眼球的同时还给予我们有意义的信息。



各种由Gephi制成的网络图


Gephi是一款信息数据可视化利器,它的一般应用场景如下:

  • 探索性数据分析

  • 链接分析

  • 语义网络分析

  • 社交网络分析

  • 生物网络分析


以下简单介绍下它的使用方法。


在操作下面步骤之前,先去Gephi官网上下载最新版的0.9.1 version,这是免费的,且支持中文,还有丰富的插件下载,这简直是数据可视化爱好者的福音!


值得注意的是,这款软件是用Java编写的,所以需要安装Java环境,这个有点磨人。


接下来,笔者将详细分析Gephi最常用的一个场景---社交网络分析,以豆瓣上部分电影的导演与演员的关系作为分析对象,来详细解读如何制作一个“秀外慧中”的社交网络可视化图谱。


4.2.1 制作源数据

Gephi的源数据可以在excel中完成。在excel中,仅输入2列即可,表头严格按照Gephi的格式来制作,第一列为“Source”,第二列为”Target”。下面以豆瓣上评分6以下的国内电影的导演(选取的是张艺谋、陈凯歌、冯小刚等大家耳熟能详的导演,演员随之确定)和演员关系表为例,做成如下格式:



在Excel上编辑Gephi的源数据


做好源数据之后,记得保存为CSV格式,Gephi仅能读取这种格式的数据。


4.2.2 导入数据

在导入数据时,分别在“分隔符”、“如表格”、“格式”这三个选项下选择“逗号”、“边表格”、“GBK”。接下来点击“下一步”,完成数据的导入。



在Gephi中导入csv数据


4.2.3 调整网络布局

刚打开“图”,也就是网络图的图形界面时,这几百个节点“蜗居”成一团,有点盘古开天辟地前“浑沌如鸡子”的感觉,但这个模样离我们心中的审美还有很长一段距离呢。



初始状态的网络图


不过,不用着急,下面几个简单的步骤就能让它“脱胎换骨”,完成华丽的变身。

在左上方的“布局”栏目中,选择其中的任一算法,并可以在下方的操作界面修改默认算法参数,也可使用默认的参数。单击图中运行按钮,布局算法生效。



选择“布局”中的算法







请到「今天看啥」查看全文