专栏名称: 大数据分析和人工智能
以传播大数据、解读行业趋势、数据化运营为核心的新媒体平台,已有150多万行业人士关注,荣获2013年新浪微博百强自媒体、2016年中国十大大数据领域影响力平台,关注我就是关注数据
目录
相关文章推荐
数据派THU  ·  【NeurIPS2024】IPO: ... ·  1 周前  
大数据文摘  ·  OpenAI放弃自制AI芯片!伦敦场开发者日 ... ·  1 周前  
软件定义世界(SDX)  ·  2024『AI十大前沿技术』趋势展望发布 ·  1 周前  
51好读  ›  专栏  ›  大数据分析和人工智能

提取 PDF 表格数据快崩溃的我,突然发现了这个小工具

大数据分析和人工智能  · 公众号  · 大数据  · 2018-05-21 11:05

正文

来自:生物学霸


还记得学霸君本科时候,有一次老板丢了一个满满是数据表格的 PDF,让小编去整理成 Excel 表格,真的是输了小编三四天数据,现在回想起来还记忆犹新。


众所周知,将数据从 PDF 表格中提取出来是一件很烦人的任务,比如将下图的表格粘贴到 Excel 中,就会是这样!



在 PDF 中很是工整。但是!一旦,复制,然后再粘贴到 Excel 中,就变了模样,真的认不出。这种时候,很多同学想必就是无奈地手动输入了。真的是惨啊,如果数据量少还好,一多简直是要命啊!



但是,这些问题都难不倒机智的学霸君!



是不是很 nice 啊。接下来就让学霸君给打家介绍中这款工具,及其使用。



这款小工具叫做 Tabula,是一个免费的开源小工具,对的,没有看错,是免费的哦。它除了免费,还有一个优点,就是多平台!



除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来学霸君会给大家详细介绍如何使用。


首先就是下载啦。解压后,打开软件,会自动打开浏览器。



打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。



我们可以参照这个步骤来操作。


上传包含数据表的 PDF 文件。



通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。



这里有几个注意点,一定要切记!



第 1:不要将标题圈进阴影区域,不然会打乱格式!


第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!




随后,点击绿色按钮。



随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。



选择我们需要的格式,点击下载按钮。



打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!


但是学霸君发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。



只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!




成立快1年来,备受数据行业人士的关注,从无到有,已发展成5000+人的高效学习大社区,我们立志做高端、高效的大数据分析学习社区,让数据驱动价值、驱动业务成为职场必备,而随着知识、体系、课程的沉淀,我们的价格也一路上涨,1年内涨价7次,目前价格为1024元


1、1024真TM......贵?

答:其实非也

首先,我们是永久学习的社群,一次加入永久学习,给你全方位的呵护成长

其实,我们的课程价值近3000元,进入的话都是免费学习,还有组长带领一起学习,市面上你买人家课,谁会对你这么好?

最后,我们还有不定期的专题分享,新开发的优质课程也有内部价,光优惠都够你入圈费了,我们玩的情怀、高效


2、我是数据小白,很白很白那种可以加入吗?

答:可以的,我们从入门到深入,从技术到工具,从工具到案例,从数据分析的各个流程和工具都有相应的体系课程,也有对应的引导体系,让你少走弯路


3、授课是什么形式?我该如何学习?

答:我们的授课是网络授课,小组制的学习方式,每个小组和体系课程都有资深的数据分析师带队学习,每个系列大概45天左右,只需要每天坚持30分钟,持续45天即可,时间安排自由,但你要按照要求打卡,进行考核


4、学习中遇见困难或者职业疑惑咋办?

答:每个体系都对应很多的小组组长,你在小组学习过程中的问题我们的资深组长都会帮你去解答,解答不了,数据君会找行业的相关专家去解答,当然提问前请先搜索你的问题,我们希望回答你搜索不到的问题,职场类的可以发出来和5000多名圈友一起交流,也可以单独找我互相交流

5、这个圈子有时间限制吗?大概学习多久?

答:没有,永久性学习,所有的课程都可以反复去学习,然后我们的体系和监督基本上让你一次学习,终身受用,所以很少有第二次再加入同一个系列的,这就是品质和口碑

从10大体系的课时来讲,你要学完圈子的课至少是1年


6、学习的课程和线路是你们安排还是自己安排?

答:我们的引导其实只是让你知道什么样的数据分析师走什么样的线路,什么样的分析师选择什么样的课程,当然你对自己定位很清晰的话,可以自己选自己适合的课程,满足你多元化的要求


7、学到什么程度,才能找到工作或者成为数据分析师?

答:这个问题其实无法解答!任何高效的学习都要看自己的,这是你学习数据分析的态度问题,当然学我们课程出去找个工作问题不大,但首先你学习的功底要硬,我们对每个系列的课程也有层层考核,也有我们自己发的证书


8、随时进入都可以学习吗?

答:NO,现在圈子5000多人,没法做到实时开组开黑,所以要等我们上一期对应系列课程小组完成学习,进行中的小组,我们不让新人进入,要保证每一期学习的效果,所以需要等待15天左右,先预约你要学习的系列课程,一般我们当天小组招募,不到半天限定的40人就会满,所以新来的圈友一定记得预约


9、学习过程中因为有事不能继续坚持,如何处理?

答:如果真有这个情况,你需要给组长说明原因,然后退出这次学习小组,等你时间合适时再进入相应时间即可,我们不希望这样半路退出,毕竟每一次机会都来之不易,我们的学习强度不大,所以还是坚持的好,有限的时间让你学最有效的数据分析思路和方法,其实已经浓缩了你无效学习的时间


加入方式:

加我微信:seedata

转账1024,先拉微信群,再邀请进小密圈

另:无论何时进来,我们的课程都要预约,学习过程不加新人