运用大数据分析和挖掘方法来提升新闻传播研究的学术想象力,需要面对挑战和抓住机遇。以时下国内新闻传播学界热衷的网络舆论研究为例,如果只是进行决策研究、提供舆情分析报告和对策建议,则门槛相对较低,如果要真正进行学术研究,则至少面对三个方面的挑战:
(一)数据如何获取:学术机构如果要采购微博等平台的数据,购买成本非常高;如果利用高校自建的数据实验室、借助网络爬虫等方式进行数据抓取,则很容易被拦截而无法持续抓取;如果通过学术合作的方式,跟百度、腾讯、阿里巴巴等
相关互联网公司建立数据合作,所获得的传播数据往往规模有限且抓取、分析和成果发表等各环节面临诸多限制。此外,数据获取还面临着两个比较突出的困难,一是“数据孤岛”的问题,即微信、微博和各大网站的数据之间并未打通,每个平台的数据只能反映特定平台上网络舆论的特征;二是数据的“结构化”问题,即便能够抓取和分析每个平台的全样本数据,也很难对其在多大程度上符合总体人口的样本特征进行充分说明。
(二)数据如何分析:针对社交媒体的数据分析需要解决概念测量、理论建模、模型计算等诸多环节的方法难题。比如,分析网民针对特定议题所形成的网络情绪,如果仅仅从关键词的维度进行正负情绪的统计,就很难真正准确的挖掘情绪背后的态度和心理。为此,需要结合表情符号、图片、主题识别、议题类型等进行更深度、更准确的分析;再比如,针对微博140个字左右的短文本、针对微信数千字的较长文本,要进行准确的主题识别,需要更多计算机自然语言处理和数据挖掘的方法。
(三)数据如何洞察:利用不同社交媒体的网络舆论数据,通过分析来把握中国社会的真实民意,是极具挑战的。多数舆论数据都根据热点事件来进行抓取和分析,主要停留在“事件型”舆论层面、而非“话题型”舆论,因此需要更长时间的纵向研究、更多维度的横向比较。此外,借助大数据方法进行的舆论研究还需要跟传统社会调查、实验法等方法进行综合运用,才能更加准确地分析网络空间舆论和现实空间舆论之间的互动关系。
基于上述挑战,笔者认为,大数据作为方法也作为语境,要真正助力于新闻传播研究的学术想象力提升,需要重点从如下方面做更多努力:
首先,处理好“理论驱动”和“数据驱动”的关系。现阶段,能够抓取到知乎等问答社区、百度等搜索平台、微博、微信等社交媒体、今日头条等聚合型资讯终端的数据,在把握不同平台的网民结构、技术特性和文化偏向基础上,进行一些“数据驱动”的研究探索是有其意义的。但长远来看,则需要从“理论驱动”的层面,对相关数据进行结构化处理、科学化分析,从理论假设、检验和建构的高度进行更具学理性、普适性的学术研究。
其次,处理好学术前沿问题和中国本土问题的关系。社会科学的研究要解决“全球化”和“本土化”问题,归根结底要立足中国本土的政治、经济、社会和文化脉络,将基于现实的实证数据进行理论阐释、全球学术对话和普遍规律的探索。
比如,基于信息流的过程追踪、地理和议题差异的网络舆论研究,将其与中国政治
文化生态和舆论调适的权力结构结合在一起进行分析,探讨网络舆论生成规律和现实社会舆论空间的复杂互动;基于港澳台和内地舆论场针对同一议题的社交媒体传播数据,分析同一国家、不同地区的跨境政治舆论场的差异和影响机制。
最后,处理好网络空间数据和现实社会数据的关系。今天的互联网早已不再是“虚拟社会”,所谓的“虚拟”和“真实” “线上”和“线下”的边界早已被打破,但是,我们的研究总体还很缺乏对网络空间数据和现实社会数据整合打通的尝试。回到心理空间、网络空间和现实空间的多维空间传播实践的角度看,今天越来越需要在社会空间、网络空间、心理空间等多空间视域下重新审视人、信息和技术之间的关系。大数据时代新闻传播研究,需要追问的是:大数据会为我们认识和理解日益复杂的互联网社会提供新的可能吗?能够让我们在已然分割学科的边界中拆掉篱笆、运用不同学科的理论资源去完整认识社会吗?从这个角度看,立足多空间视域、运用跨学科视角,将传播视角的研究拓展至社会视角的“整体论”研究,应该是我们基于大数据的新闻传播研究“再出发”的观念起点。