专栏名称: Python之禅
分享Python相关技术干货,偶尔扯扯其它的
目录
相关文章推荐
Python爱好者社区  ·  国企官网被挂上“码农的钱你也敢吞,还钱” ·  昨天  
Python开发者  ·  DeepSeek 下棋靠忽悠赢了 ... ·  3 天前  
Python爱好者社区  ·  DeepSeek 最新中国大学排名 ·  2 天前  
Python开发者  ·  “李飞飞团队50 美元炼出 ... ·  5 天前  
Python开发者  ·  国产 DeepSeek V3 ... ·  6 天前  
51好读  ›  专栏  ›  Python之禅

没有好数据,怎么靠自己的一身本领完成紧急的分析任务?

Python之禅  · 公众号  · Python  · 2020-03-23 17:10

正文


\  Question /

没有好数据,怎么靠自己的一身本领完成紧急的分析任务?


我是一名数据自媒体从业者,俗称追热点的媒体狗。今天现身说法,分享我价值年薪30w的专业技能。(后有心得总结和教程)


事情是这样的。2月28日,孙杨遭禁赛新闻放出,舆论一片哗然。
3月7日,检察日报评孙杨案,指出“孙杨不配合药检取样的决定是错误的”,舆论又一片哗然。
嗯~是热点的味道!

媒体狗的老板自然也是媒体狗,不是吃素的,周末一早就开始钉我。

机智的我早就习惯了这种场景。 没有好的数据,那我就地取材

于是我随机点开了几篇关于孙杨事件的10w+热文,先来看看媒体同行们都带出了哪些节奏。
本文分析案例文章《孙杨,毁了》https://mp.weixin.qq.com/s/NSolKlvdqld5JC1n_HsVCg

每篇热文3000+字,要看的热文可能有10-20篇,如果能收集到若干篇不同时间的10w+文章,做不同时间的媒体舆论变化分析,也许能从不一样的角度追一追热点。

一场说走就走的舆情分析开始了!

操作AI也有低门槛


机智的我早就入门了python,也早就听说过自然语言处理技术(NLP)。

但现在临时抱佛脚学NLP肯定来不及,只能拿出神器—— 百度AI开放平台

利用API调用AI工具,免费快速,解决当前难题。

AI开放平台集合了各种百度的智能API工具,其中就有用于自然语言处理的 词法分析、词向量表示、词义相似度分析等各种文本分析API工具 ,而且大部分接口都可以免费申请。

API的作用是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,在这个案例中,可以让初学者的我使用复杂的NLP算法,但不需要从基础的NLP模型开始建立分析,很快地可以看到效果,完成手头的工作。

百度用大量数据训练过的AI,自然比我临时学jieba分词要有效率。于是我马上动手注册了一个免费的自然语言处理应用,获得调用API的资格。

注册过程无需付费,成功后得到自己的API-KEY


利用百度给出的python案例代码,我成功的对之前提到的10w+推文《毁了,孙杨》进行分词和词性处理,并使用pandas做好数据处理,筛出名词词频的Top10的词语。
百度ai分词比较准确,尤其是词性上,用pandas可以辅助清洗

最后我使用数据可视化神器pyecharts的词云模块,做出可互动的词云图:
词云文字大小就是词频,文本词频分析可以说是数据分析的一种万金油

从结果来看,这是一篇围绕孙母和孙杨之间的关系来进行论述的文章,结合“朱志根”“女友”“教训”等等的词汇, 预计这是一篇用孙杨的历史“污点”案例抨击孙母教育失败的问题的文章

由于做了词性分析,我将文章里最具有感情色彩的形容词单独做了分析。
结果显示,这篇文章有大量形容孙杨和孙妈的词, 可见这是一篇感情丰富,内容偏主观的文章 。主要从写人角度剖析孙杨事件的文章,内容大致为从孙杨的表现给与他和孙母消极评价。

全文的感情倾向


光看词频也不能做太多的深入分析。 文章在 不同时期的新闻评论感情倾向是否有变化呢?

继续调用“情感倾向分析”API,对案例数据进行情感判断。

利用python代码,当我输入一句话,自然语言处理工具就会返回一个negative_prob数值,表示这段话“属于消极类别”的概率, 数值越大,越是消极
输入文本:"也能看出,她意在把事情的全部责任,都推卸到别人身上。"
消极概率:0.945862
那么将之前的文章,按照断句的顺序依次输入,就可以得出文章的感情倾向变化。

于是我尝试对比本文中,这次事件中不同主人公——孙杨、孙母、听证会三方的感情倾向,进行情倾向感分析对比。
可以发现:
  • 孙杨作为主人公是这篇文章的首要讨伐对象,全文密集出现,基本出现就是批判;

  • 而孙母作为第二被主人公,文章情感倾向和孙杨是类似的;

  • 而作为对立面的听证会,本文没有做太多论述,并且大部分时间的负面感情不强。


做到这里,我已经对我要追的热点有了大致的了解,舆情分析技术上也可以解决。

接下来要做的是找到不同时间发表的若干篇媒体文章,分析舆论随时间变化的走向:


  • 2月27日到3月7日期间 图中红色柱状图数值很高,灰色面积图数值不高。起初媒体关注度很高,大部分媒体文章都认为孙杨受了委屈,支持孙杨上诉维权。


  • 3月7日之后, 《检察日报》定性了这件事,舆论就开始变化,媒体发声变少,舆论开始变得负面,像《毁了,孙杨》这样论述听证会过程以及论孙母对孙杨教育方式的文章就变得典型。


文本舆情分析还能做什么?


到这里,我有了研究思路,开始写稿,措辞,做更详细的分析图表,交稿,一气呵成。

文本分析是数据分析里的万金油,掌握后可以做非常多有趣的分析,比如:

Bilibili某些视频里的弹幕组成分析。
《巴啦啦小魔仙》弹幕热评研究

某热门公号标题常用词分析。

咪蒙前公众号标题常用词研究


新冠疫情新闻报道重点分析。

新冠疫情新闻评论重点研究(教程案例之一)


职场里的数据分析思维


回到一开始的问题: 没有好的数据的时候,怎么靠自己的一身本领完成分析任务?

这个问题其实是问:

\  QUESTION /

如何做一个快速“解决问题”的优秀的数据工作者?


以下是我的经验:

1、从刚开始工作时,我就感受到了数据分析的重要性,也感受到了公司和行业在这方面的缺失,在简单查阅资料后, 我在工作之余选择学习python

2、因为学习,我逐渐知道了 python作为一种万金油工具 的作用,有丰富的工具库。对于我这样的初学者也能短时间做出一些有趣的尝试。

3、关注了一些技术号后,我发现文本分析师一种常见的分析方法,也适合我的工作, 就看了一些案例课程学习

4、工作之后,顿时没了学校里老师的庇护。很多事情老板不会在意过程,看重的是结果。如果不想被体力更好的学习能力更强的应届生代替, 自我驱动非常重要

5、 技术的使用门槛永远是越来越低 ,python的出现证明了这点。我要做的是串联起技术,完成工作流。

文末附python入门学习资料一份


这些是我的 职场数据分析思维 ,它源于想法,发展于python学习,总结为思维。 这些思维,正是年薪30w的数据分析师该有的思维。


如果你也有兴趣入门python,提升自己,我向你推荐城市数据团推出的 《Python新闻舆情分析》训练营 课程。


限时特价39.9元,参与分享赚活动,有更多优惠。

1场 直播,4天闯关实战,永久可看 ,抛弃冗杂无聊的语言基础,从实战数据案例学习舆情分析神器python!

超便宜,能学到什么?


上文的舆情分析案例,在本次训练营课程中可实操。

课程将从零开始进行数据案例教学,内容充实。通过互动练习,你也能完成以下成果:







请到「今天看啥」查看全文