专栏名称: 待字闺中
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。
目录
相关文章推荐
OSC开源社区  ·  深度实测Manus,我依然认为这就是AI ... ·  2 天前  
程序员的那些事  ·  被骂了!腾讯道歉 + 立刻改正 ·  4 天前  
程序员小灰  ·  Manus,又一国产AI封神了,一码难求! ·  3 天前  
OSC开源社区  ·  听说技术大V们都被"manus"喂饱了,求邀 ... ·  4 天前  
程序猿  ·  雷军提出建议!他本人也曾是“受害者” ·  6 天前  
51好读  ›  专栏  ›  待字闺中

网络舆情监测的原理和挑战

待字闺中  · 公众号  · 程序员  · 2021-01-28 14:11

正文


【摘要】

通过姚安娜出道的舆情事件,说明网络舆情监测的必要性。介绍了网络舆情监测的数据来源、重点需求、技术框架和主要挑战。

本文内容来自“数字化视界”的视频内容,欢迎大家关注,一起交流和探讨关于舆情监测、数据智能、大数及AI等方面的技术和想法。


一、引言:姚安娜出道事件

前段时间姚安娜出道的话题迅速成为一个网络热点,微博上有一个完整的纪录片,大家可以去看看感受一下。“为什么大家喜欢姐姐不喜欢我”,估计华为的公关部门这几天也很关注这个事情的影响。
OK,假设你就是华为的公关部门负责人,那么现在你最想做的是什么?我觉得至少有几件事情是可以做的:
(1)充分了解这个事件的传播情况和扩散范围;
(2)收集和分析网民对这个事件的评论和观点;
(3)评估这个事件对任总以及对华为带来的影响和后果;
(4)针对这个事件的不利影响,提供相应的处置方案。
可以预想得到,其实任何的政府部门、政府官员、企业、社会组织、名人都可能会面临类似的危机处理问题,如何及时地发现、分析和评估网上的相关舆情信息,以便做出适当的处理决策,这就是网络舆情监测要干的事情。


二、舆情监测的数据来源及主要需求

其实,自从搜索引擎出现后,对网络舆情监测的需求就自然地出现了,有时也叫舆情监控。其实在我看来,“监测”和“监控”这两个词的含义有一点细微的差别,“监测”强调舆情信息的发现、分析和评估,而“监控”的含义,还包含了对舆论进行引导和控制的意思,比如通过一些公关手段,将负面的舆情转向到更加积极正面的方向上来,或者阻断舆情信息的进一步传播。

早期Web1.0时代,舆情监测的数据来源主要集中在三类站点:新闻站点(比如新浪、搜狐等)、论坛(比如天涯论坛、西祠胡同、水木社区、猫扑论坛)、博客网站(比如新浪博客、网易博客、博客中国等等)。后来随着Web2.0以及移动互联网的兴起,舆情信息的数据源又进一步延伸到贴吧、新闻评论、微博、微信公众号、手机新闻客户端。当然,这两年针对短视频平台的舆情监测的需求可能也出来了,比如B站、抖音、快手、微信的视频号,等等。以上这些都是国内的数据源,很多高端客户可能还很关注国外的舆情信息,所以,境外媒体网站、境外的社交网站(Facebook、Twitter等)也是非常重要的数据来源。

在我看来,政府类客户是舆情监测的主要客群,比如政府宣传主管部门、网信办、公检法司、各类监管部门(证监会/银保监/食药监)等等。这些客户希望基于互联网上的信息充分了解社情民意、突发事件、社会热点、百姓诉求、百姓对政府出台政策的看法、以及一些敏感或负面信息的传播情况和社会影响等等,以便提升政府的社会治理能力。当然,舆情监测也可以给企业和社会组织、甚至个体提供类似口碑监测、危机公关等的工具。如果有了一个强大的舆情监测平台,那么前面针对姚安娜出道的几个问题就能够迅速地得到答案。

三、舆情监测是大数据技术和多种AI技术的综合集成应用


下面简单介绍下网络舆情监测所涉及的技术环节。其实,通过前面的讲述,大家也能有个初步判断,网络舆情监测是一个多种复杂技术的集大成者。

我这里简单画了一个技术框架图,除了通常的大数据技术作为存储与计算引擎的基础平台之外,还包括信息采集、信息检索、自然语言处理、以及各种分析挖掘,甚至包括图像识别和视音频的处理,应该说舆情监测是大数据技术和各种AI技术的综合集成应用。所以,要做好并不容易,技术本身的难度就比较大。比如,仅仅数据采集方面的问题,就有不少的挑战,也严重影响舆情监测的最终效果,后面我会专门分享一下关于网络爬虫的问题。

四、阻碍舆情监测系统实施效果的主要挑战


其实,除了数据采集以及由此带来的数据质量问题外,还有两大难题会影响舆情监测的实施效果:
  • 舆情监测的需求往往比较模糊,难以精确地描述。姚安娜出道的这个事件可能相对好一些,用一些关键词就可以很好的定义。但是很多情况下的舆情监测需求是不好定义的,比如针对一般性的群体性事件的监测和预警,在事件还没发生的情况下,怎么去定义和描述你的监测需求,才能让系统返回准确的结果从而提前预警?其实是很难的。从我的经验上来看,通常最终会要建设一个领域知识库。






请到「今天看啥」查看全文