判决书能被方便查阅,和近十年来政府推行的信息公开一样,都是助推数据新闻发展的条件之一。
很多数据新闻的数据都是来源于政府等国家机关公开的资料,这在全球也是一个趋势。
各级法院在相应网站上都会公布自己的裁判文书,而中国裁判文书网(https://wenshu.court.gov.cn/)便是最高法汇总裁判文书的地方。从2014年至今,提及“疫苗”二字的刑事、民事判决书共有8000多条,因为手动整理缓慢,网易数读的另一位同学负责用Python爬取。
在互联网中沉淀着海量数据,《经济学人》把它们称为
数字时代的石油
,对数字编辑而言,如果搜集起来加以分析,将会得出很多有价值或有趣的结论。网易数读曾发过一篇《分析了300万字文本后,我们终于知道了什么是直男癌》(http://data.163.com/17/0830/19/CT43NV6M000181IU.html),就是基于微博、知乎、豆瓣、虎扑这些社交平台的文章和帖子。而Python这类灵活的工具能节省很多获取或清洗数据的时间。
新闻网站Propublica的那篇有名的
数据新闻《给医生的美元(Dollars for Docs)》
数据就是搜集自药企网站(美国《平价医疗法案(ACA)》规定医药企业必须披露因推销式谈话、咨询等而给医生、牙医等的费用)。搜集来的PDF文件页数有17320页,网站则有243034页,合起来有1099377条记录。要是一个人来手动复制黏贴整理这些记录,要一年半的时间,所以他们就写了个程序,批量化地完成了整理数据这件事——当然,整个过程中,依然需要很多人工的核查和清理。