专栏名称: GitHubStore

分享有意思的开源项目

精准！Marker API：PDF 转 Markdown

GitHubStore · 公众号 · · 2024-05-16 17:04

正文

项目简介

一个简单易部署的 API，用于将 PDF 文件快速、高准确度地转换成 Markdown 格式。- 将 PDF 转换成 Markdown。- 支持同时转换多个 PDF 文件。- 支持多种文档类型，包括书籍和科学论文。- 支持所有语言。- 移除页眉、页脚和其他非文本元素。- 格式化表格和代码块。- 提取并保存Markdown中的图片。- 将大多数方程式转换成LaTeX格式。

pdf

markdown

安装和设置

🐍 Python

若要在 Python 环境中安装 Marker API，请按照下列步骤操作：

从 GitHub 克隆标记 API 存储库：

git clone https://github.com/adithya-s-k/marker-api

cd marker-api

使用以下命令安装依赖项：

poetry install or pip install -e .  poetry install 或 pip install -e .

安装后，您可以通过 marker_api 命令运行服务器

marker_api

或

python server.py

用法

端点

URL: /convert 网址： /convert
Method: POST 方法： POST

请求

Body参数：

pdf_file ：要转换的 PDF 文件。（类型：文件）
extract_images （可选）：指定是否从 PDF 中提取图像。默认值为 true 。（类型：布尔值）

响应

成功响应：

Code: 200
内容：包含转换后的 Markdown 文本、元数据和可选提取的图像数据的 JSON。

{    "markdown": "Converted Markdown text...",    "metadata": {...},    "images": {        "image_1": "data:image/png;base64,",        "image_2": "data:image/png;base64,",        ...    }}

如果响应中包含图像，则以 base64 编码格式提供它们。您可以使用此数据在应用程序中显示图像。此外，您可以使用以下 Python 脚本 invoke.py 使用本地 PDF 文件调用端点并将图像保存在本地
错误响应：

Code: 415 不支持的媒体类型
内容：包含错误详细信息的 JSON。

调用结点

CURL

curl -X POST \  -F "[email protected];type=application/pdf" \  -F "extract_images=true" \  http://localhost:8000/convert

Python

import requestsimport os
url = "http://localhost:8000/convert"pdf_file_path = "example.pdf"with open(pdf_file_path, 'rb') as pdf_file:    pdf_content = pdf_file.read()files = {'pdf_file': (os.path.basename(pdf_file_path), pdf_content, 'application/pdf')}params = {'extract_images': True}  # Optional parameterresponse = requests.post(url, files=files, params=params)
print(response.json())

JavaScript

const fetch = require('node-fetch');const fs = require('fs');
const url = "http://localhost:8000/convert";const pdfFilePath = "example.pdf";

请到「今天看啥」查看全文

推荐文章

王者荣耀 · 我是小妲己，我赞成今天打开王者领福利！

12 小时前

三易菌 · AR手游没有未来，知名游戏开发商萌生退意

昨天

三易菌 · AR手游没有未来，知名游戏开发商萌生退意

昨天

游戏研究社 · 《怪物猎人：荒野》制作人访谈：正式版表现会更好

3 天前

王者荣耀 · S39赛季爆料丨元流之子射手来袭！杨戬玩法升级！娜可露露李白等英雄加强！一起来看~

2 天前

游戏茶馆 · 《失落之魂》制作人杨冰就前员工不当言论道歉

3 天前

Someet · 第1波活动 | 为生活创造惊喜是一种能力

8 年前

深夜书屋 · 女孩子毕业以后赚多少钱合适？

8 年前

潮音乐 · 张信哲《信仰》无论多久始终动听

8 年前

科学松鼠会 · 求婚有啥好方法？花100万买颗陨石！……你等等？

7 年前

DeepTech深科技 · 一周DT科技评论精选：AlphaGo将与柯洁进行围棋大战

7 年前