专栏名称: Python编程时光
懂点 Python 的云计算工程师
目录
相关文章推荐
51好读  ›  专栏  ›  Python编程时光

Python-Camelot:用三行代码提取PDF表格数据

Python编程时光  · 公众号  ·  · 2021-12-06 09:02

正文

请到「今天看啥」查看全文


来源 : 机器之心
从 PDF 表格中获取数据是一项痛苦的工作。不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果。然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。

大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前,有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。

  • 项目地址:https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称,Camelot 是一个 Python 工具,用于将 PDF 文件中的表格数据提取出来。

具体而言,用户可以像使用 Pandas 那样打开 PDF 文件,然后利用这个工具提取表格数据,最后再指定输出的形式(如 csv 文件)。

代码示例

项目提供的 PDF 文件如图所示,假设用户需要提取这些文字之间的表格 2-1 中的信息。

PDF 文件,我们需要提取表格 2-1

使用 Camelot 提取表格数据的代码如下:

>>> import camelot
>>> tables = camelot.read_pdf('foo.pdf'#类似于Pandas打开CSV文件的形式
>>> tables[0].df # get a pandas DataFrame!
>>> tables.export('foo.csv', f='csv', compress=True# json, excel, html, sqlite,可指定输出格式
>>> tables[0].to_csv('foo.csv'# to_json, to_excel, to_html, to_sqlite, 导出数据为文件
>>> tables
1>
>>> tables[0]
7, 7)> # 获得输出的格式
>>> tables[0].parsing_report
{
    'accuracy'99.02,
    'whitespace'12.24,
    'order'1,
    'page'1
}

以下为输出的结果,对于合并的单元格,Camelot 在抽取后做了空行处理,这是一个稳妥的方法。

安装方法

项目作者提供了三种安装方法。首先,你可以使用 Conda 进行安装,这是最简单的。

conda install -c conda-forge camelot-py

最流行的安装方法是使用 pip 安装。

pip install camelot-py[cv]

还可以从项目中克隆代码,并使用源码安装。

git clone https://www.github.com/camelot-dev/camelot
cd camelot
pip install ".[cv]"






'; mydiv.className = "img_loading"; mydiv.src="data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg=="; videoPlaceHolderSpan.style.cssText = "width: " + obj.w + "px !important;"; mydiv.style.cssText += ";width: " + obj.w + "px"; videoPlaceHolderSpan.appendChild(videoPlayerIconSpan); videoPlaceHolderSpan.appendChild(mydiv); insertAfter(videoPlaceHolderSpan, a); function ajax(obj){ var url = obj.url; var xhr = new XMLHttpRequest(); var data = null; if (typeof obj.data == "object"){ var d = obj.data; data = []; for(var k in d) { if (d.hasOwnProperty(k)){ data.push(k + "=" + encodeURIComponent(d[k])); } } data = data.join("&"); }else{ data = typeof obj.data == 'string' ? obj.data : null; } xhr.open('POST', url, true); xhr.onreadystatechange = function(){ if( xhr.readyState == 4 ){ if( xhr.status >= 200 && xhr.status < 400 ){ obj.success && obj.success(xhr.responseText); } else { obj.error && obj.error(xhr); } obj.complete && obj.complete(); obj.complete = null; } }; xhr.setRequestHeader("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8"); xhr.setRequestHeader("X-Requested-With", "XMLHttpRequest"); xhr.send(data); } var mid = "2247504907" || ""|| ""; var biz = "MzIzMzMzOTI3Nw=="||""; var sessionid = ""||"svr_322518580ad"; var idx = "1"; (function sendReq(parentNode, copyIframe, index, vid) { ajax({ url: '/mp/videoplayer?vid=' + vid + '&mid=' + mid + '&idx=1&__biz=' + biz + '&sessionid=' + sessionid + '&f=json', type: "GET", dataType: 'json', success: function (json) { var ret = JSON.parse(json || '{}'); var ori = ret.ori_status; var hit_biz_headimg = ret.hit_biz_headimg + '/64'; var hit_nickname = ret.hit_nickname; var hit_username = ret.hit_username; var selfUserName = "gh_58ebfb9ba92f"; if (ori === 2 && selfUserName !== hit_username) { var videoBar = document.createElement('div'); var videoBarHtml = ''; videoBar.innerHTML = videoBarHtml; var spanContainer = document.getElementById('js_mp_video_container_' + index); if (spanContainer) { spanContainer.parentNode.insertBefore(videoBar, spanContainer); } else { parentNode.insertBefore(videoBar, copyIframe); } var avatorEle = document.getElementById(hit_biz_headimg + index); var avatorSrc = avatorEle.dataset.src; console.log('avatorSrc' + avatorSrc); if (ret.hit_biz_headimg) { avatorEle.style.backgroundImage = 'url(' + avatorSrc + ')'; } } }, error: function (xhr) { } }); })(a.parentNode, a, i, vid); a.style.cssText += ";width: " + obj.w + "px !important;"; a.setAttribute("width",obj.w); if(window.__zoom!=1){ a.style.display = "block"; videoPlaceHolderSpan.style.display = "none"; a.setAttribute("_ratio",obj.ratio); a.setAttribute("_vid",vid); }else{ videoPlaceHolderSpan.style.cssText += "height: " + obj.h + "px !important;"; mydiv.style.cssText += "height: " + obj.h + "px !important;"; a.style.cssText += "height: " + obj.h + "px !important;"; a.setAttribute("height",obj.h); } a.setAttribute("data-vh",obj.vh); a.setAttribute("data-vw",obj.vw); if(a.getAttribute("data-mpvid")){ a.setAttribute("data-src",location.protocol+"//mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&auto=0&vid="+vid); }else{ a.setAttribute("data-src",location.protocol+"//v.qq.com/iframe/player.html?vid="+ vid + "&width="+obj.vw+"&height="+obj.vh+"&auto=0"); } } })(); (function(){ if(window.__zoom!=1){ if (!window.__second_open__) { document.getElementById('page-content').style.zoom = window.__zoom; var a = document.getElementById('activity-name'); var b = document.getElementById('meta_content'); if(!!a){ a.style.zoom = 1/window.__zoom; } if(!!b){ b.style.zoom = 1/window.__zoom; } } var images = document.getElementsByTagName('img'); for (var i = 0,il=images.length;i=0 && child.getAttribute("data-vid")==vid){ child.style.cssText += "height: " + h + "px !important;"; child.style.display = ""; } } } } })(); })(); " },{ querySelector:"qqmusic", genId:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return(t.node.getAttribute("musicid")||"").replace(/^\s/,"").replace(/\s$/,"")+"_"+t.index; }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ return 88; }, replaceContentCssText:"", appendContentCssText:"margin:16px 0;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mpvoice", genId:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=decodeURIComponent(t.node.getAttribute("voice_encode_fileid")||"").replace(/^\s/,"").replace(/\s$/,""); return e+"_"+t.index; }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ return 122; }, replaceContentCssText:"", appendContentCssText:"margin:16px 0;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mppoi", genId:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return t.node.getAttribute("data-id")||""; }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ return 219; }, replaceContentCssText:"", appendContentCssText:"margin:16px 0;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mpsearch", genId:function(){ return decodeURIComponent("mpsearch"); }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ return 100; }, replaceContentCssText:"", appendContentCssText:"margin:16px 0;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mpvideosnap", genId:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-type")||"video"; return decodeURIComponent("live"===e?t.node.getAttribute("data-noticeid")||"":t.node.getAttribute("data-id")||""); }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-type")||"video"; return"live"===e?t.parentWidth:.665*t.parentWidth; }, calH:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-desc")||"",n=t.node.getAttribute("data-type")||"video"; return"live"===n?113:e?this.calW(t)+44+35+27:this.calW(t)+44+35; }, replaceContentCssText:"", appendContentCssText:"margin:16px auto;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mp-wxaproduct", genId:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return decodeURIComponent(t.node.getAttribute("data-wxaproduct-productid")||""); }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-wxaproduct-cardtype")||""; return"mini"===e?124:466; }, replaceContentCssText:"", appendContentCssText:"margin:16px 0;diplay:block;", outerContainerLeft:"", outerContainerRight:"" },{ querySelector:"mpprofile", genId:function(t){ return t.node.getAttribute("data-id")||""; }, calW:function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; return 1*t.parentWidth; }, calH:function(){ return 141; }, replaceContentCssText:"", appendContentCssText:"margin:28px 0 20px;diplay:block;", outerContainerLeft:"", outerContainerRight:"" }] }; t(e); }(function(){ var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0]; if("function"==typeof document.querySelectorAll)for(var e={ maxWith:document.getElementById("img-content").getBoundingClientRect().width, idAttr:"data-preloadingid" },n=0,r=t.config.length;r>n;n++)for(var a=t.config[n],i=document.querySelectorAll(a.querySelector),o=0,u=i.length;u>o;o++){ var d=i[o],g=d.parentNode.getBoundingClientRect().width; g=Math.min(g,e.maxWith); var s=a.calW({ parentWidth:g, node:d }),c=a.calH({ parentWidth:g, node:d }),l=a.genId({ index:o, node:d }),p=t.defaultContentTpl.replace(/#height#/g,c).replace(/#width#/g,s),m=document.createElement("div"); if(m.innerHTML=p,a.replaceContentCssText){ var h=a.replaceContentCssText.replace(/#height#/g,c).replace(/#width#/g,s); m.firstChild.style.cssText=h; }else a.appendContentCssText&&(m.firstChild.style.cssText+=a.appendContentCssText); var C=a.outerContainerLeft+m.innerHTML+a.outerContainerRight; m.innerHTML=C,m.firstChild.setAttribute(e.idAttr,l),d.parentNode.insertBefore(m.firstChild,d.nextSibling); } });






请到「今天看啥」查看全文