项目简介
一个简单易部署的 API,用于将 PDF 文件快速、高准确度地转换成 Markdown 格式。- 将 PDF 转换成 Markdown。- 支持同时转换多个 PDF 文件。- 支持多种文档类型,包括书籍和科学论文。- 支持所有语言。- 移除页眉、页脚和其他非文本元素。- 格式化表格和代码块。- 提取并保存Markdown中的图片。- 将大多数方程式转换成LaTeX格式。
pdf
markdown
安装和设置
🐍 Python
若要在 Python 环境中安装 Marker API,请按照下列步骤操作:
-
从 GitHub 克隆标记 API 存储库:
git clone https://github.com/adithya-s-k/marker-api
-
导航到克隆的存储库目录:
-
使用以下命令安装依赖项:
poetry install or pip install -e . poetry install 或 pip install -e .
安装后,您可以通过 marker_api 命令运行服务器
或
用法
端点
请求
响应
{
"markdown": "Converted Markdown text...",
"metadata": {...},
"images": {
"image_1": "data:image/png;base64,",
"image_2": "data:image/png;base64,",
...
}
}
调用结点
CURL
curl -X POST \
-F "[email protected];type=application/pdf" \
-F "extract_images=true" \
http://localhost:8000/convert
Python
import requests
import os
url = "http://localhost:8000/convert"
pdf_file_path = "example.pdf"
with open(pdf_file_path, 'rb') as pdf_file:
pdf_content = pdf_file.read()
files = {'pdf_file': (os.path.basename(pdf_file_path), pdf_content, 'application/pdf')}
params = {'extract_images': True} # Optional parameter
response = requests.post(url, files=files, params=params)
print(response.json())
JavaScript
const fetch = require('node-fetch');
const fs = require('fs');
const url = "http://localhost:8000/convert";
const pdfFilePath = "example.pdf";