专栏名称: GIJN
全球深度报道网(GIJN)致力于整合并分享深度报道资源,包括报道手册和书籍、国内外公开数据库、数据新闻工具包和深度报道的前沿探索。
目录
相关文章推荐
51好读  ›  专栏  ›  GIJN

干货大放送 一文打尽数据新闻常用工具包

GIJN  · 公众号  ·  · 2017-09-27 08:17

正文

请到「今天看啥」查看全文


全球深度报道网中文站自2014年9月开通以来为大家介绍了大量国外的数据新闻工具,囊括数据采集、分析和可视化等方面。我们将最常用的工具整理如下,并附上介绍具体使用方法的文章。


我们还会及时更新文中内容,欢迎访问网站cn.gijn.org“资源库”内的“数据新闻”栏目,了解最新最全的数据新闻工具包。


数据采集

数据采集(Data Scraping)又称作数据抓取或网页抓取,是利用电脑程序从网页采集文字和数据,并将其整理成便于分析的格式。


比较常用的方法是用R语言或Python编写“爬虫”程序,但也可以用现成的软件或基于网页的应用,包括Helium Scraper(每月收费100美金)、 Import.io、 parsehub、 Web Scraper,中文用户还可以选择“造数”。


相关文章:

想知道有哪些议员在“吃空饷”?自己写一个爬虫吧! (2016)

记者采集网络信息的职业伦理问题(2015)

新闻人网络数据采集入门(2015)


网络搜索

对于现代记者而言,网络搜索的重要性怎么强调都不为过。全球深度报道网刊登过多篇介绍网络搜索技巧的文章,尤其是BBC搜索专家Paul Myers的文章深受读者欢迎。我们将相关文章再次整理如下:


相关文章:

清单 | BBC专家再荐新工具 “人肉”搜索调查利器逐个看(2017)

报道亚洲| BBC专家:网络搜索,大有可为(2016)

2015调查新闻新招:网络搜索技法大全(2015)

网络搜索专家:有了这些网站,在中国做调查报道会更容易(2015)

实用贴:如何用网络搜索搞定新闻要素?(2015)

实用帖:网络搜索工具&调查技巧分享(2015)


数据清洗

数据一多,就有可能残缺、冗余,或名称不一致,数据量越大越可能出错。免费开源的数据清洗工具Open Refine可以帮你在使用数据前挖掘、清洗数据——别怕原始数据会因此遗失,它在网上运行的同时,也悄悄把所有数据存进了你的电脑。


相关文章:

处理数据、制作可视化:数据记者利器推荐(2016)

数据清洗神器Open Refine简明入门(2016)


文档存储与分享

调查记者往往需要处理大量电子文档,例如Word文件,PDF或者扫描图片,用于批量存储和搜索文档的DocumentCloud比一般的云端存储工具更切合记者需要。


DocumentCloud曾经是调查记者与编辑联盟(Investigative Reporters and Editors,IRE)的项目,主要是为了方便记者处理电子文档,功能包括云端存储、分享、添加注释,分类管理等。目前已经有1,619家新闻机构的约8400名记者使用该工具,既有美国《纽约时报》、《华盛顿邮报》和英国《卫报》等传统主流媒体,也有类似维基解密这样的网络协作项目。


相关文章:

电子文档或暴露隐私 专家教你如何自我保护(2017)

普利策奖得主教你五步,做好数字化调查(2017)


导入PDF文档

PDF文档一般需要转换成Word、TXT或CSV等格式后方能对文字和数据作进一步加工和分析。


目前比较先进的网络工具是CometDocs(美国调查新闻记者免费,其他人员每月9.99美元),OnlineOCR.net(免费,而且能识别繁简体中文),二者最大的特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以识别扫描件或照片中的文字。 另外还有专门识别表格的Tabula(免费)和Adobe的官方转换工具(24美元一年)。


相关文章:

PDF文档数据难处理?资深记者教你几招(2017)

从PDF中提取数据表(2014)


数据可视化


Data Wrapper

Datawrapper是一个开源的数据可视化工具,可以免费生成图表并保存为PNG格式,目前可生成折线图、柱状图、叠加柱状图、地图、圆环图、表格图。付费后可以获取图像链接(用于嵌入网页)以设计更多元素。


相关文章:

处理数据、制作可视化:数据记者利器推荐(2016)

CartoDB

CartoDB是一款交互式地图制作工具,提供“一键式制图”功能,上传数据后会自动推荐一系列地图格式供用户选择和修改,方便实用,适合缺乏编程基础又想尝试可视化的人士。


该程序最初由两名西班牙研究生物多样性和自然保护的科学家开发,至今已经拥有超过12万用户,尤其深受数据新闻工作者的喜爱。


相关文章:

清单 | 十个地图可视化工具 从易到难总有一款适合你(2017)

地图可视化神器CartoDB简明使用指南(2015)

Google Fusion

Fusion Tables属於Google Drive产品中的一项应用,是一个功能庞杂的制图工具,适用于CSV和Excel等常见数据格式。绘制地图方面,其特点之一是能够融合不同的数据集,而且地理信息编码功能也十分突出。记录地理信息的KML(Keyhole Markup Language)是其常用格式。


相关文章:

清单 | 十个地图可视化工具 从易到难总有一款适合你(2017)

调查记者专用:数字信息调查工具清单(2015)

TimelineJS

TimelineJS用于制作新闻事件时间轴,属于免费且开源的可视化工具,目前支持40种语言。你需要先用Google Spreadsheet按照格式要求编制一份表格,将表格链接复制到TimelineJS,然后就能自动生成一个时间轴了。


相关文章:

普利策奖得主教你五步,做好数字化调查 (2016)

编译/周穗斌

编辑/Ivan Zhai


欢迎关注 “全球深度报道网”微信(gijn_cn) ,获取深度报道前沿资源和数据新闻干货。轻点上图获取二维码,长按关注即可。

点击“阅读原文”,获取相关工具访问链接








请到「今天看啥」查看全文


推荐文章
柳林大小事  ·  这后妈,这下可出名了!!!
7 年前
金乡大蒜辣椒国际交易市场  ·  2017年7月13日金乡大蒜国际交易市场大蒜行情
7 年前
电影菌落  ·  内涵:我真的不会喝酒。。
7 年前