专栏名称: GIJN
全球深度报道网(GIJN)致力于整合并分享深度报道资源,包括报道手册和书籍、国内外公开数据库、数据新闻工具包和深度报道的前沿探索。
目录
相关文章推荐
51好读  ›  专栏  ›  GIJN

#GIJC19 侧记:没有现成数据时,如何通过众包收集信息?

GIJN  · 公众号  ·  · 2019-11-09 17:00

正文

找数据在中国并不是一件容易的事,因为很多公开的数据可能要么缺失、要么格式混乱。记者应该如何应对这样的情况?在第十一届全球深度报道大会上,我学习到了不少数据众包的经验和技巧。


2019年9月26日,第十一届全球深度报道大会在德国汉堡开幕。图:Nina Weymann



9月底的德国汉堡,总是飘着小雨。 为期四天的全球深度报道大会(GIJC)结束了。 每天早上9点「上课」,下午5点「下课」,主题从数据新闻到媒体可持续发展,从如何进行深度调查到对抗假新闻,涵盖了几乎所有深度报道的可能性。 来自130多个国家,1700多名新闻工作者、研究者在大会会场进进出出,各种精彩的课程让人应接不暇。


作为一名数据编辑,我深知在中国找数据不是一件容易的差事,因为很多公开的数据可能要么缺失,要么格式混乱。 因此,这次参会的目的之一是,是想弄明白如何在没有现成数据库的情况下,记者应该如何自己收集和创建数据库?


方法之一就是进行众包。


「众包」(Crowdsourcing)起初是一个互联网概念。 简单解释就是,将一个项目分给一群人做,每个人做一点。 最常见的大概就是Google 的登录验证器,比如选择图中可见的红绿灯、车辆等等。 每个用户登录时识别一次,将这些识别数据汇聚起来,就会得到一个巨大的数据集,Google 就可以用它们来训练自己的人工智能。


在新闻行业,尤其是在数据新闻领域,众包新闻也是一种常用的方法。 因为数据新闻的选题基础是数据,但记者又不一定能常常找到令人满意的数据库。 这种情况下,如果每个读者都能提供一些信息,那这些信息汇集起来,就会成为一个有价值的数据库。


在我看来,众包新闻主要有两种,一种是收集故事,另一种是收集信息。


第一种的重点在于个人经历。 比如,ProPublica 和 NPR 曾于2017年合作发表过一篇关于产妇去世的报道。 产妇死亡率看起来只是几个数字,但背后却是许多家庭的眼泪和辛酸。 当记者想挖出更多细节的数据时,却发现没有人在做记录。 因此,他们采用了众包的方式,通过社交媒体、众筹网站找到潜在的受影响家庭,并投递调查问卷。 随后,他们将收回的问卷和公开讣告交叉比对,最终确认了至少450例产妇死亡案例。


ProPublica 和 NPR 在2017年合作发表过的关于产妇去世的报道。


偏软的选题也可以使用这个方法。比如《纽约》杂志曾经制作过一篇纽约爱情地图,读者可以提交自己在这个城市里经历过的爱情故事:第一次相遇在哪个酒吧、第一次约会在哪家饭店等等。


《纽约》杂志制作的纽约爱情地图。


国内的澎湃新闻也在去年做了一个类似的众包项目,收集汶川地震的记忆。 用户参与这个项目的方法很简单: 点开链接,简要填写自己的信息,再留下故事即可。 如果没什么想写的,也可以直接浏览别人的故事。 另外,读者也可以一键在朋友圈分享自己看到的感人故事——同时吸引更多人来填写自己的经历。


澎湃新闻制作的信息众包项目「我的汶川记忆」


汶川这个项目一共收到了1857篇故事。 之所以能收集到这么多记忆,主要原因可能有两个。 第一,是刚好遇上汶川地震十周年的纪念; 第二,当时这个项目的链接出现在澎湃网站和客户端的各个地方,读者很容易接触到。 相关的人物特稿结尾也会附上项目入口链接。 读者在读完别人的故事后,会更愿意分享自己的故事。


另一种众包的方式侧重于收集客观信息。 和第一种不同,这种项目收集到的信息,编辑部必须重复核查、确保准确和真实。 核实并不是容易的活,尤其是在本来就没有公开数据库的情况下,因此信息众包比故事众包的难度要更高。


不过,经过这次大会上数据新闻记者 Kavya Sukumar 的“调查报道背后的众包项目”一课,让我明白信息众包的难点还不仅仅在核实上,整个项目的设计都需要下更大的功夫,并不是单单一张调查问卷就能完事的。 Sukumar是一名活跃在新闻行业的工程师,她以自己在Vox参与过的一次调查报道为例,给我们讲解了众包项目的设计思路。


Vox在 2017-2018 年间发表了一系列关于医院急诊室费用的调查报道。 这个选题的灵感来自一封读者邮件。 这名读者抱怨自己因为一次急症治疗花了近千美元,而整个治疗内容就是在婴儿脚上贴了个创可贴,全程仅29分钟。


Vox 在2017-2018年间发表了一系列关于医院急诊室费用的调查报道。


随后记者发现,根据美国法律,医院不能立刻告诉患者急症室的医疗费是多少,因为担心患者会为了高昂的医疗费而放弃治疗。 但这带来的另一个问题就是,医院想开多少钱的账单都行。


Vox 的记者们认为,因为这样的一条法规存在,遇到类似问题的家庭肯定不只一个。 然而,没有一个现成的急症医疗费数据库能够回答这个问题。 思考再三,他们决定创建一个众包项目,以照片的形式来收集遭遇类似情况的读者的急症室医疗账单。


让读者直接提交账单照片,我觉得是很聪明的一个做法,因为这样可以确保信息的真实性。 如果只是让读者填写几个数字,那姑且不说故意乱填的,哪怕是不小心输错的也很难被发现。


但是,这随之而来的更重要的问题就是,你怎么能获得读者的信任,让他们愿意把医疗账单拍给你? Sukumar 分享了三个贴士。


第一,在收集读者信息时,需要明确说明你需要的信息是什么,让读者把不需要的部分遮盖起来。


在设计提交信息页面前,Sukumar团队已经试读过多种类型的医疗账单,总结出了不同的医疗账单的信息点位置。 据此,他们撰写了一份完整的操作指南,根据这份指南,读者很快就能找到必要信息的位置,再遮盖住其它部分,拍照提交即可。


为了确保读者的安全感,收集信息的界面最好还能强调对用户隐私的重视,例如说明一旦离开了提交信息的界面/App,就不会再继续跟踪用户的行为。







请到「今天看啥」查看全文