PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果。然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。
大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前,有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。
Camelot 是什么
据项目介绍称,Camelot 是一个 Python 工具,用于将 PDF 文件中的表格数据提取出来。
具体而言,用户可以像使用 Pandas 那样打开 PDF 文件,然后利用这个工具提取表格数据,最后再指定输出的形式(如 csv 文件)。
代码示例
项目提供的 PDF 文件如图所示,假设用户需要提取这些文字之间的表格 2-1 中的信息。
PDF 文件,我们需要提取表格 2-1
使用 Camelot 提取表格数据的代码如下:
>>> import camelot
>>> tables = camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式
>>> tables[0].df # get a pandas DataFrame!
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite,可指定输出格式
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite, 导出数据为文件
>>> tables
1>
>>> tables[0]
7, 7)> # 获得输出的格式
>>> tables[0].parsing_report
{
'accuracy': 99.02,
'whitespace': 12.24,
'order': 1,
'page': 1
}
以下为输出的结果,对于合并的单元格,Camelot 在抽取后做了空行处理,这是一个稳妥的方法。

安装方法
项目作者提供了三种安装方法。首先,你可以使用 Conda 进行安装,这是最简单的。
conda install -c conda-forge camelot-py
最流行的安装方法是使用 pip 安装。
pip install camelot-py[cv]
还可以从项目中克隆代码,并使用源码安装。
git clone https://www.github.com/camelot-dev/camelot
cd camelot
pip install ".[cv]"



预览时标签不可点
微信扫一扫
关注该公众号
![]()
微信扫一扫
使用小程序
:,。视频小程序赞,轻点两下取消赞在看,轻点两下取消在看
';
mydiv.className = "img_loading";
mydiv.src="data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==";
videoPlaceHolderSpan.style.cssText = "width: " + obj.w + "px !important;";
mydiv.style.cssText += ";width: " + obj.w + "px";
videoPlaceHolderSpan.appendChild(videoPlayerIconSpan);
videoPlaceHolderSpan.appendChild(mydiv);
insertAfter(videoPlaceHolderSpan, a);
function ajax(obj){
var url = obj.url;
var xhr = new XMLHttpRequest();
var data = null;
if (typeof obj.data == "object"){
var d = obj.data;
data = [];
for(var k in d) {
if (d.hasOwnProperty(k)){
data.push(k + "=" + encodeURIComponent(d[k]));
}
}
data = data.join("&");
}else{
data = typeof obj.data == 'string' ? obj.data : null;
}
xhr.open('POST', url, true);
xhr.onreadystatechange = function(){
if( xhr.readyState == 4 ){
if( xhr.status >= 200 && xhr.status < 400 ){
obj.success && obj.success(xhr.responseText);
} else {
obj.error && obj.error(xhr);
}
obj.complete && obj.complete();
obj.complete = null;
}
};
xhr.setRequestHeader("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
xhr.setRequestHeader("X-Requested-With", "XMLHttpRequest");
xhr.send(data);
}
var mid = "2247504907" || ""|| "";
var biz = "MzIzMzMzOTI3Nw=="||"";
var sessionid = ""||"svr_322518580ad";
var idx = "1";
(function sendReq(parentNode, copyIframe, index, vid) {
ajax({
url: '/mp/videoplayer?vid=' + vid + '&mid=' + mid + '&idx=1&__biz=' + biz + '&sessionid=' + sessionid + '&f=json',
type: "GET",
dataType: 'json',
success: function (json) {
var ret = JSON.parse(json || '{}');
var ori = ret.ori_status;
var hit_biz_headimg = ret.hit_biz_headimg + '/64';
var hit_nickname = ret.hit_nickname;
var hit_username = ret.hit_username;
var selfUserName = "gh_58ebfb9ba92f";
if (ori === 2 && selfUserName !== hit_username) {
var videoBar = document.createElement('div');
var videoBarHtml = '';
videoBarHtml += '
以下视频来源于
';
videoBarHtml += '
';
videoBarHtml += '
';
videoBarHtml += '
' + hit_nickname + '
';
videoBarHtml += '
';
videoBarHtml += '
';
videoBarHtml += '
';
videoBarHtml += '
';
videoBar.innerHTML = videoBarHtml;
var spanContainer = document.getElementById('js_mp_video_container_' + index);
if (spanContainer) {
spanContainer.parentNode.insertBefore(videoBar, spanContainer);
} else {
parentNode.insertBefore(videoBar, copyIframe);
}
var avatorEle = document.getElementById(hit_biz_headimg + index);
var avatorSrc = avatorEle.dataset.src;
console.log('avatorSrc' + avatorSrc);
if (ret.hit_biz_headimg) {
avatorEle.style.backgroundImage = 'url(' + avatorSrc + ')';
}
}
},
error: function (xhr) {
}
});
})(a.parentNode, a, i, vid);
a.style.cssText += ";width: " + obj.w + "px !important;";
a.setAttribute("width",obj.w);
if(window.__zoom!=1){
a.style.display = "block";
videoPlaceHolderSpan.style.display = "none";
a.setAttribute("_ratio",obj.ratio);
a.setAttribute("_vid",vid);
}else{
videoPlaceHolderSpan.style.cssText += "height: " + obj.h + "px !important;";
mydiv.style.cssText += "height: " + obj.h + "px !important;";
a.style.cssText += "height: " + obj.h + "px !important;";
a.setAttribute("height",obj.h);
}
a.setAttribute("data-vh",obj.vh);
a.setAttribute("data-vw",obj.vw);
if(a.getAttribute("data-mpvid")){
a.setAttribute("data-src",location.protocol+"//mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&auto=0&vid="+vid);
}else{
a.setAttribute("data-src",location.protocol+"//v.qq.com/iframe/player.html?vid="+ vid + "&width="+obj.vw+"&height="+obj.vh+"&auto=0");
}
}
})();
(function(){
if(window.__zoom!=1){
if (!window.__second_open__) {
document.getElementById('page-content').style.zoom = window.__zoom;
var a = document.getElementById('activity-name');
var b = document.getElementById('meta_content');
if(!!a){
a.style.zoom = 1/window.__zoom;
}
if(!!b){
b.style.zoom = 1/window.__zoom;
}
}
var images = document.getElementsByTagName('img');
for (var i = 0,il=images.length;i=0 && child.getAttribute("data-vid")==vid){
child.style.cssText += "height: " + h + "px !important;";
child.style.display = "";
}
}
}
}
})();
})();
"
},{
querySelector:"qqmusic",
genId:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return(t.node.getAttribute("musicid")||"").replace(/^\s/,"").replace(/\s$/,"")+"_"+t.index;
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
return 88;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px 0;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mpvoice",
genId:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=decodeURIComponent(t.node.getAttribute("voice_encode_fileid")||"").replace(/^\s/,"").replace(/\s$/,"");
return e+"_"+t.index;
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
return 122;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px 0;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mppoi",
genId:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return t.node.getAttribute("data-id")||"";
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
return 219;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px 0;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mpsearch",
genId:function(){
return decodeURIComponent("mpsearch");
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
return 100;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px 0;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mpvideosnap",
genId:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-type")||"video";
return decodeURIComponent("live"===e?t.node.getAttribute("data-noticeid")||"":t.node.getAttribute("data-id")||"");
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-type")||"video";
return"live"===e?t.parentWidth:.665*t.parentWidth;
},
calH:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-desc")||"",n=t.node.getAttribute("data-type")||"video";
return"live"===n?113:e?this.calW(t)+44+35+27:this.calW(t)+44+35;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px auto;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mp-wxaproduct",
genId:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return decodeURIComponent(t.node.getAttribute("data-wxaproduct-productid")||"");
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0],e=t.node.getAttribute("data-wxaproduct-cardtype")||"";
return"mini"===e?124:466;
},
replaceContentCssText:"",
appendContentCssText:"margin:16px 0;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
},{
querySelector:"mpprofile",
genId:function(t){
return t.node.getAttribute("data-id")||"";
},
calW:function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
return 1*t.parentWidth;
},
calH:function(){
return 141;
},
replaceContentCssText:"",
appendContentCssText:"margin:28px 0 20px;diplay:block;",
outerContainerLeft:"",
outerContainerRight:""
}]
};
t(e);
}(function(){
var t=arguments.length<=0||void 0===arguments[0]?{}:arguments[0];
if("function"==typeof document.querySelectorAll)for(var e={
maxWith:document.getElementById("img-content").getBoundingClientRect().width,
idAttr:"data-preloadingid"
},n=0,r=t.config.length;r>n;n++)for(var a=t.config[n],i=document.querySelectorAll(a.querySelector),o=0,u=i.length;u>o;o++){
var d=i[o],g=d.parentNode.getBoundingClientRect().width;
g=Math.min(g,e.maxWith);
var s=a.calW({
parentWidth:g,
node:d
}),c=a.calH({
parentWidth:g,
node:d
}),l=a.genId({
index:o,
node:d
}),p=t.defaultContentTpl.replace(/#height#/g,c).replace(/#width#/g,s),m=document.createElement("div");
if(m.innerHTML=p,a.replaceContentCssText){
var h=a.replaceContentCssText.replace(/#height#/g,c).replace(/#width#/g,s);
m.firstChild.style.cssText=h;
}else a.appendContentCssText&&(m.firstChild.style.cssText+=a.appendContentCssText);
var C=a.outerContainerLeft+m.innerHTML+a.outerContainerRight;
m.innerHTML=C,m.firstChild.setAttribute(e.idAttr,l),d.parentNode.insertBefore(m.firstChild,d.nextSibling);
}
});
前往“发现”-“看一看”浏览“朋友在看”