数据新闻第一课,是要确保你不会根据按国家或其他分类汇总的数据,得出关于个人的结论。在你所研究的国家或地区,人们的实际情况可能与这些粗略数据所提供的印象大不相同。
这一问题通常被称为“生态谬误”(Ecological Fallacy),数据科学家 Heather Krause 曾用一个关于香烟的例子作出解释。当研究一些国家的预期寿命和吸烟量时,可能会发现这两者之间似乎存在正相关关系:在香烟消费量较高的国家,人们也有更长的预期寿命。然而,如果就此断定吸烟能让你活得更久,那就不对了。这不仅是因为逻辑和大量科学研究的结果恰恰相反,还因为在这个例子中,所研究的数据并没有评估香烟对个人的影响,而是简单地比较了两个国家的综合指标。
这种谬误还揭示了另一个可能导致数据误读的问题:被比较的数据没有因果关系。换言之,相关性不等于因果。因为这些数据最初收集的目的,不是为了观察多抽烟是否对预期寿命有影响,所以统计分析显示的是一种预测,而不是因果结论。
研究这两组数据的记者应该要考虑其他变量,以便为这种相关性找到可能的解释,比如富裕国家民众的购买力意味着他们既能消费香烟,同时也能获得更好的医疗保健。
除了确保计算准确,我们需要评估数字是否揭示了我们试图报道的现实。阿根廷新闻网站 Infobae 的数据情报部门负责人 Sandra Crucianelli 特别提醒,对平均值要非常小心,如果数据之间的数值间隔太大,可能会产生误导。
在报道薪水或其他与不平等有关的问题时,这种情况经常发生。在不平等程度高的国家,平均薪水数字不能代表现实,因为这个数据并不能反映贫富差距。
前尼曼基金会研究员、数字订阅机构 Reveniu 创始人 Miguel Paz 建议记者在报道中使用中位数,因为它更接近大多数人的生活水平。
百分比和比率也是用以描述社会人口状况的优秀数据。每年,只要哥伦比亚警察公布犯罪数字,我就会看到数十份媒体报道,说什么“麦德林(Medllin)是最危险的城市”或“波哥大(Bogota)是最不适合拥有手机的地方。”但这些报道仅使用绝对值,因此不能反映真实的安全局势。如果从事这些报道的记者做一个相对分析,通过将数据与人口或手机使用情况联系起来,他们会发现,在拥有800万人口的大都市波哥大或拥有250万人口的城市麦德林,这些数字并不像绝对值显示的那么糟糕。事实上,不安全问题在其他人均犯罪率较高的城市才需要更多关注。
上述新闻标题也显示了结论“泛化”是如何出问题的。要正确探讨哪个城市最危险,需要更多的指标来描绘一幅更细致的画面。
类似的事情也发生在新冠疫情报道中。目前已有不少报道比较不同国家的感染人数或死亡人数,但这些比较通常不太准确,主要是因为在这种情况下,正确的衡量标准是感染率,即感染者相对于人口的数量。但由于其他一些因素,国家之间的感染率比较会有些困难。
例如,在疫情爆发的头几个月,一些国家没有统计发生在养老院的死亡人数,但后来却统计了;还有一些国家,只有当病毒是死亡的主要原因,或经检测证实病人死亡时已感染的情况下,才会算入国家新增病例,这也造成了差异;还有一些国家则使用要求较低的计数标准。病毒在每个国家存在的时间也要纳入考虑,因为这一点和其他因素,如卫生系统的强弱,都会使政府学习如何应对疫情的方式有所不同。
关于疫情报道,还有一个重要指标需要牢记,那就是感染致死率,即因感染新冠肺炎死亡的人数除以所有感染者。这个数字的问题是,每个国家都建立了自己的诊断制度,有些国家比其他国家检测的人数更多,有些国家随着疫情的发展改变了检测频率,这都使得比较变得不可能。当然,在许多国家,据信在登记的病例和死亡数字方面都存在巨大的漏报,前者是由于缺乏检测设备,后者则因为并非所有死亡都被登记,或被认定与新冠肺炎有关。这使得像英国、美国与印度等国家相互很难作比较。例如,在英国,疫情之初只有入院的人才能接受检测,这使得死亡率似乎比实际情况更高,因为只有最严重的病例被检测出来。