专栏名称: GIJN
全球深度报道网(GIJN)致力于整合并分享深度报道资源,包括报道手册和书籍、国内外公开数据库、数据新闻工具包和深度报道的前沿探索。
目录
相关文章推荐
哈佛商业评论  ·  “保持信心的方式就是去做,不断尝试” ·  3 天前  
FT中文网  ·  印度股市最大规模资金外流,流向中国? ·  5 天前  
FBIF食品饮料创新  ·  靠自有品牌营收约560亿美元,Costco是 ... ·  1 周前  
51好读  ›  专栏  ›  GIJN

PDF文档数据难处理?资深记者教你几招 | 清单

GIJN  · 公众号  ·  · 2017-07-24 08:29

正文

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。


有没有一些省时省力的工具呢?


有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。



Tabula



Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。


Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。


然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了,但可以用接下來介绍的其它软件解决。


Cometdocs



Cometdocs同样深受记者欢迎,其中一个原因是美国的调查新闻从业人员可以免费成为其高级会员,而另一个原因就是操作简便。


对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。


使用的时候,将需要转换的PDF文档上传,点击“转换”(convert)键,再选择输出的格式是Excel或ODS(用于Libre Office软件),但缺点是不支持CSV格式。


Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。


与Tabula一样,Cometdocs不能识别横向放置的表格。


Adobe Export PDF


PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。


你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。


与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。


Nitro Pro



Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。


Acrobat Pro


同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。


Zanran



同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。


Zamzar



同样是需要用邮箱接收文件的网上软件,但好处是免费使用。



PDF转换的其它技巧


表格转置


有些出版物出于空间的考量会把表格“打横”放,如果是印刷品还可以将其旋转90度后阅读,电子版的话就只能转动你的脖子了。


PDF文档也会有类似的问题,而且这种横向放置的表格一般不能被转换软件识别。解决的办法是先转置PDF中的表格,主要的工具有前面介绍过的Nitro Pro或Acrobat Pro。



Acrobat Pro的用法是:


  • 对于一份较大PDF文档中的若干表格,较好的方法是先打开文档,使用“Organize Pages”选项提取出含有表格的那几页,每一页生成单独的文档。


  • 打开包含表格的页面后,选择“View”菜单,将表格旋转至垂直的方向。


  • 打开“”Enhance Scans”选项,选择Recognize Text,确保选中“Save as editable text and images”。这可能要花几分钟,并且完成设置后可能表格又转回去了。


  • 回到“View”菜单,将表格再度调整至适当的方向并保存文档。


  • 你可以尝试将表格转换成Excel的格式,但经验表明用Tabula效果更好。


  • 再次检查转换后的文档,尤其是看看"8"是否被误作"6"或"B"。


导出扫描件中的表格



在扫描的PDF文件中,一般软件会将表格识别为图片而非文字,所以你首先要做的是将表格用具有光学字符识别(OCR)功能的软件转换成文字。


可以选择的软件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。


对于扫描效果尚可的文档,Acrobat Pro的“Enhance Scans”工具足以识别其中的文字。有时候,先用截屏的方式将表格保存为一份单独的文档可能效果更好,然后再用Tabula转换成CSV格式。


处理有密码锁的文档


有些PDF文档被作者加了密码锁,未经授权用户不能随意编辑或将其转换为其它格式,但也不是没有解决办法。


苹果Mac用户可以使用电脑上的“Preview”功能打开PDF文档,然后在“Menu”菜单中选择“Export as PDF”。这样你就生成了一个新的未经加锁的PDF文档,基本上可以进行数据转换。




编译/周穗斌

编辑/Ivan Zhai,梁思然


相关阅读:

普利策奖得主教你五步,做好数字化调查

数据表难处理?几个清理指令有妙用

Excel暗含可视化神器?微软Power BI手把手指南




Laura Grant是南非网站Media Hack Collective的数据记者及管理合伙人。网站聚集了一群致力于用新媒体讲故事的新闻人。Grant的记者生涯超过20年,曾经是南非Mail & Guardian杂志主管新媒体和数据的副编辑,参与了大量数据新闻及可视化项目。



欢迎关注“全球深度报道网”微信(gijn_cn),获取深度报道前沿资源和数据新闻干货。轻点上图获取二维码,长按关注即可。

点击“阅读原文”,查看文中所提工具