专栏名称: 全栈修仙之路
专注分享 TS、Vue3、前端架构和源码解析等技术干货。
目录
相关文章推荐
邢者团队晚间解盘  ·  注意回踩 ·  8 小时前  
掌上春城  ·  突发坠机! ·  20 小时前  
美股投资网  ·  特斯拉今天为何再度重挫?2025.2.11 ·  2 天前  
51好读  ›  专栏  ›  全栈修仙之路

超强开源文档转换利器:一键转换多格式文档至Markdown,还集成大语言模型(LLM)。

全栈修仙之路  · 公众号  ·  · 2024-12-22 13:49

正文

在数字化时代,信息传播变得便捷,但也面临格式兼容挑战。开源文档转 Markdown 工具应运而生,解决了格式转换难题,促进了内容的自由流通和协作。

Markdown,作为一种轻量级标记语言,因其简洁易读而成为技术写作、博客和文档管理的首选。它的简单性也降低了 LLM 处理文本时的复杂性,无需解析复杂的格式和样式。

本文 Kakuqo 将介绍微软开源的 MarkItDown 文档转换工具,它能够将不同类型的文档转换成 Markdown 格式的文档。该工具很火爆,开源仅一个多月,目前 Github 的 Star 数已达 25.9K

MarkItDown 简介

MarkItDown 是一款将各种文件转换为 Markdown 的工具。目前它支持以下文档类型:

  • PDF
  • PowerPoint(pptx)、Word(docx) 和 Excel(xlsx)
  • Images (EXIF metadata and OCR)
  • Audio (EXIF metadata and speech transcription)
  • HTML、Text-based formats (CSV, JSON, XML)
  • ZIP files (iterates over contents)

MarkItDown 使用示例

要测试 MarkItDown 的功能,我们可以使用 MarkItDown 项目提供的各种测试文件,这些文件所在的路径是: markitdown/tests/test_files

docx 转 markdown

pptx 转 markdown

本地运行 MarkItDown

要在本地运行 MarkItDown,你需要确保本地已经安装了 Python。之后,你就可以通过 pip install markitdown 命令来安装 MarkItDown。

命令行使用

markitdown path-to-file.pdf > document.md

或者使用 -o 参数来设定输出的文件路径:

markitdown path-to-file.pdf -o document.md

Python API 集成

在 Python 中,使用 MarkItDown 很简单,只需几行代码就搞定了。

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

其实 MarkItDown 不仅仅是一个文档转换工具,它也支持利用 AI 大语言模型来实现一些智能文档处理。比如,利用 gpt-4o 来为图片生成描述信息。

from






请到「今天看啥」查看全文