第一篇关于疫苗问题的数据新闻是如何出炉的？

网易新闻学院 · 公众号 · 社会 · 2018-07-27 18:10

正文

本文转载自：新闻实验室（newslab）

作者 | 陈良贤

上周末，有关疫苗的话题几乎占据了所有社交媒体的注意力。网易数读做了第一篇通过数据新闻呈现中国疫苗问题的文章。通过梳理近五年来引发公众疫苗恐慌的事件，以及近五年来涉及人用疫苗的刑事和民事判决书，新闻发现： 疫苗问题是中国社会的一个周期性问题，背后与不合法的疫苗采购密切相关。

在这篇文章里，一共有7张可视化图表，涵盖了引发公众疫苗恐慌的事件时间轴、主要疫苗的异常反应报告发生率、第一类和第二类疫苗有哪些、涉及人用疫苗的刑事犯罪有多少以及人用疫苗在民事案件中的情况是如何这些要点。

具体可以点击这里阅读。以下是该报道的作者详细介绍报道制作过程。

7月15号晚上有世界杯决赛，很多人在看球，也包括从不关心各类球赛的我，因为网易传媒的HR发邮件说了，法国队夺冠公司就放假一天。开场第18分钟，克罗地亚队员自摆乌龙送出一球，法国队1:0领先。

近乎同时，编辑老师在选题群里发了条新闻截图——《长春企业狂犬病疫苗生产信息造假，药监局责令停产》，觉得这是一个值得跟的题。在21号前，这件事并没有引起太多人关注。因为曾做过狂犬病疫苗的数据新闻，我被安排跟进这个选题。

相较于其他的新闻类型，数据新闻的一个特点就是能把问题量化。 不管是金钱的流向，还是位置的移动，甚至桌上吃什么，只要每一笔、每一次、每一顿都有结构化的记录，就能分析出点门道来。 数据新闻中的“数据”二字绝不单单是“数字”（number）的意思。

为了理清疫苗在中国到底有什么问题，首先想到的是新闻报道。通过检索慧科新闻数据库（一个搜集了各类媒体报道的新闻数据库）中近十年所有标题含有”疫苗“两字的报刊新闻，我梳理了所有涉及疫苗问题的报道。

这件事做了两天，从19号到20号，最直观的感受就是难受，因为看到：

2010年，王克勤的《山西疫苗乱象》引发巨大反响，媒体铺天盖地报道”山西疫苗案“；2014年，不断有婴儿接种乙肝疫苗后死亡，媒体铺天盖地报道”乙肝疫苗疑似致人死亡“；2016年，一篇名为《疫苗之殇》的文章刷爆朋友圈，媒体铺天盖地地报道”山东疫苗案“。

此外，还有各地报纸零零散散的疫苗问题报道。

所以21号疫苗文章刷屏时，没有惊讶，现在是历史的翻版。

不过，仅仅梳理新闻报道是难以呈现疫苗问题全貌的，因为报道的最低标准是只用告诉我们发生了一件疫苗安全事件，至于注射的是什么疫苗，是否真是偶合症，是否有公职人员犯罪等，在不同报道中详略不一，有的报道事无巨细，有的报道只字不提。

这时能够想到的资源就是判决书。 法院的判决书不仅提供了刑事、民事等案件的详细内容，而且信息结构固定，方便分析。更关键的是，判决书容易获取。根据相关规定，除特殊情形外，发生法律效力的判决书均要在互联网公布。

判决书能被方便查阅，和近十年来政府推行的信息公开一样，都是助推数据新闻发展的条件之一。 很多数据新闻的数据都是来源于政府等国家机关公开的资料，这在全球也是一个趋势。

各级法院在相应网站上都会公布自己的裁判文书，而中国裁判文书网（https://wenshu.court.gov.cn/）便是最高法汇总裁判文书的地方。从2014年至今，提及“疫苗”二字的刑事、民事判决书共有8000多条，因为手动整理缓慢，网易数读的另一位同学负责用Python爬取。

在互联网中沉淀着海量数据，《经济学人》把它们称为 数字时代的石油 ，对数字编辑而言，如果搜集起来加以分析，将会得出很多有价值或有趣的结论。网易数读曾发过一篇《分析了300万字文本后，我们终于知道了什么是直男癌》（http://data.163.com/17/0830/19/CT43NV6M000181IU.html），就是基于微博、知乎、豆瓣、虎扑这些社交平台的文章和帖子。而Python这类灵活的工具能节省很多获取或清洗数据的时间。

新闻网站Propublica的那篇有名的数据新闻《给医生的美元（Dollars for Docs）》数据就是搜集自药企网站（美国《平价医疗法案（ACA）》规定医药企业必须披露因推销式谈话、咨询等而给医生、牙医等的费用）。搜集来的PDF文件页数有17320页，网站则有243034页，合起来有1099377条记录。要是一个人来手动复制黏贴整理这些记录，要一年半的时间，所以他们就写了个程序，批量化地完成了整理数据这件事——当然，整个过程中，依然需要很多人工的核查和清理。

不巧的是，文书网承载的访问量过大，网站频繁出现503错误，同学表示：“爬虫也拯救不了网站崩溃”。为了赶上发稿日期（原定是24号，被提前到22号，搜集文书数据时已是20号晚上），我转向了OpenLaw裁判文书检索网站（http://openlaw.cn/）。

OpenLaw 是一个面向律师、法官、检察官、法学教师、学者、学生以及从事法律相关的工作人员的 NGO 开放型组织，2014年成立于上海。它的检索系统汇总了来自全国法院依法公开的判例，裁判文书的数量甚至略多于中国裁判文书网的。同时，它的服务器稳定，反应速度快。更重要的是，网站提供判决书的导出，有 PDF 和 xlsx 两种格式可选，减轻了我搜集数据的负担。

搜集完数据后的下一步就是清洗数据。从 OpenLaw 上导出的2014年至今提到“疫苗”二字的刑事判决书有995份，民事判决书有7000份（从2014年起是因为在这之前的判决书在网络上并不完整）。剔除与疫苗问题无关的判决书后，得到了408份刑事判决书和78份民事判决书。最后，通过分类汇总，得到了各个维度的数据。

通过分析刑事判决书，基层公职人员受贿是造成问题疫苗的一个重要原因，而通过可视化这一步骤，能将分析结果更直观地展现出来，可能这也是数据新闻最能吸引读者在屏幕上停留一会的地方。

在新闻专业的理论课上，老师都会被强调新闻要讲客观性，但我们都知道这是夸父追日，所以有“只可无限接近却永远无法达到”一说。而数据新闻能让我们离客观更进一步。与传统新闻常常靠例证法来证明观点不同，数据新闻常常是全举， 把所有的情况都列举出来，让读者看到事件的全貌。

这方面，国外的数据新闻已有非常多的经典案例。比如《华盛顿邮报》所做的有关警察枪杀平民的数据新闻《995 people shot dead by police in 2015》（https://www.washingtonpost.com/graphics/national/police-shootings/）。

美国警察枪杀平民的事件时有发生，这很有可能与官方惩罚不力有关。为了证明，《邮报》记者建了数据库，整合了2015年以来所有美国警察枪杀平民的案件，包括被害者的种族、是否携带武器等信息。然后，他们从典型案例切入，再通过数据呈现问题的全貌，准确且深入。如今， 这份数据库已更新到了2018年。

当疫苗事件的讨论焦点转移到调查记者缺失时，我没想太多，毕竟是往日荣光。 但在当下，仅仅是数据新闻领域，我就知道有很多优秀的记者正在推动它。

6月，在由全球编辑网络（GEN）主办的2018年数据新闻奖（Data Journalism Awards）上，财新数据新闻中心拿到了“最佳大型数据新闻团队奖”，如果看到和它一起被提名的媒体有哪些，就会明白这是件多么令人激动的事。

第一篇关于疫苗问题的数据新闻是如何出炉的？

正文

请到「今天看啥」查看全文