专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
王者荣耀  ·  我是小妲己,我赞成今天打开王者领福利! ·  12 小时前  
51好读  ›  专栏  ›  GitHubStore

精准!Marker API:PDF 转 Markdown

GitHubStore  · 公众号  ·  · 2024-05-16 17:04

正文

项目简介

一个简单易部署的 API,用于将 PDF 文件快速、高准确度地转换成 Markdown 格式。- 将 PDF 转换成 Markdown。- 支持同时转换多个 PDF 文件。- 支持多种文档类型,包括书籍和科学论文。- 支持所有语言。- 移除页眉、页脚和其他非文本元素。- 格式化表格和代码块。- 提取并保存Markdown中的图片。- 将大多数方程式转换成LaTeX格式。

pdf


markdown




安装和设置

🐍 Python

若要在 Python 环境中安装 Marker API,请按照下列步骤操作:

  1. 从 GitHub 克隆标记 API 存储库:

git clone https://github.com/adithya-s-k/marker-api


  1. 导航到克隆的存储库目录:

cd marker-api
  1. 使用以下命令安装依赖项:

poetry install or pip install -e .  poetry install 或 pip install -e .

安装后,您可以通过 marker_api 命令运行服务器

marker_api


python server.py

用法

端点

  • URL: /convert 网址: /convert

  • Method: POST 方法: POST


请求

  • Body参数:

    • pdf_file :要转换的 PDF 文件。(类型:文件)

    • extract_images (可选):指定是否从 PDF 中提取图像。默认值为 true 。(类型:布尔值)


响应

  • 成功响应:

    • Code: 200

    • 内容:包含转换后的 Markdown 文本、元数据和可选提取的图像数据的 JSON。

{    "markdown": "Converted Markdown text...",    "metadata": {...},    "images": {        "image_1": "data:image/png;base64,",        "image_2": "data:image/png;base64,",        ...    }}
  • 如果响应中包含图像,则以 base64 编码格式提供它们。您可以使用此数据在应用程序中显示图像。此外,您可以使用以下 Python 脚本 invoke.py 使用本地 PDF 文件调用端点并将图像保存在本地

  • 错误响应:

    • Code: 415 不支持的媒体类型

    • 内容:包含错误详细信息的 JSON。


调用结点

CURL

curl -X POST \  -F "[email protected];type=application/pdf" \  -F "extract_images=true" \  http://localhost:8000/convert

Python

import requestsimport os
url = "http://localhost:8000/convert"pdf_file_path = "example.pdf"with open(pdf_file_path, 'rb') as pdf_file: pdf_content = pdf_file.read()files = {'pdf_file': (os.path.basename(pdf_file_path), pdf_content, 'application/pdf')}params = {'extract_images': True} # Optional parameterresponse = requests.post(url, files=files, params=params)
print(response.json())

JavaScript

const fetch = require('node-fetch');const fs = require('fs');
const url = "http://localhost:8000/convert";const pdfFilePath = "example.pdf";






请到「今天看啥」查看全文