为回答以上研究问题,本项目采用语义分析方法检视推特上关于癌症的公共对话(推文),从而区分和突显社交信息流中传递的最重要的词汇、概念和它们之间的关联。
时间框架。鉴于项目研究初期的尝试性,数据采集集中于一段相对较短的时至3月13日(周三),共计16 天。
数据/语料采集。本研究间,从2013年2月26日(周二)使用基于Python的爬虫程序通过推特API实时抓取推特上包含有与癌症有关的关键字词(包括“cancer” 和 “#cancer”)的流信息。之后采用MATLAB对数据集进行解析。初步数据集总共包含269万2千286条推文。这些推文再通过MATLAB和 Excel 进行数据筛选和分析,并使用NodeXL对推文中的语义和情感网络进行可视化呈现。
分类法(词库)创建和数据筛选。基于文献回顾,我们创建了关键词(术语)分类法(词库)来描述与癌症相关的单词、短语、情感和行为。包含那些术语的推文从语料库中被挑选出来后进行进一步分析和可视化。
为了减少在对庞大数据集进行语义分析过程中的干扰,创建描述与癌症有关的目标信息,包括行为、议题、治疗等的分类是研究中的一项关键性任务。分类法整合两种方式来确定数据筛选条件。首先,根据相关的推特研究(例如,Russell, Flora,Strohmaier,Poschko,Perez & Rubens,2011)以及与癌症及健康相关的信息来源(例如,美国癌症协会,2013),我们建立了一个包括与“癌症语言学”八个面向有关的暂定分类,包括:(1) 基础知识;(2) 病因;(3) 检测;(4) 症状和诊断;(5) 治疗;(6) 就医经验;(7) 情感和 (8) 研究。这些类别被细化为若干个包括具体术语的子类别(见附录)。其次,我们选择了在初步数据集之中最频繁出现的词汇,即所有推文中被提及至少 1000次以上的单词。将词频和上述暂定分类相结合作为数据过滤条件。
在数据过滤阶段,根据上述标准暂时列入分类法的搜索词又通过对照在源文档中实际出现的词语进行标准化。事先列入分类法但因未在源文档出现故而不完全一致的关键词则被剔除。由此,最终共有223个关键词或术语用来过滤从推特API中提取的数据集。如表1所示,对过滤后总共113万零627条含有这些关键词的推文进行了语义分析。其中,43万8千590条是原创推文,8万9千180条为回复,60万2千857条为转发推文。
语义分析。我们对抓取的包含癌症相关词语的推文进行的语义分析包括关键词提及频率、周期、同步出现和情感因素四个方面。据此大致描述并识别社交对话中的语义模式。
频率。频率计算的是在此研究时间段内,癌症相关关键词在推文中被提及的数量。附录中在单词或短语旁列出的数字即为其提及频率。同时,图1显示了在这16天期间,八个癌症相关语言类别中最频繁被提及的的关键词,包括死(die)、导致或原因(cause)、诊断(diagnose)、受苦(suffer)、搏斗(fight)、爱(love),不(No),和研究(research)。这些关键词部分体现了用户在推文中谈论癌症时涉及、关注及回应的主题。