专栏名称: AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC Studio

IBM提出多模式图像文本到文本模型SmolDocling,可实现代码 | 公示 | 图表 | 表格 | 标题 高效转换!

AIGC Studio  · 公众号  ·  · 2025-04-02 00:07

正文

请到「今天看啥」查看全文





SmolDocling - The SmolOCR Solution?

Docling团队联合IBM提出了一种多模式图像文本到文本模型SmolDocling,旨在实现高效的文档转换。它保留了 Docling 最受欢迎的功能,同时通过无缝支持DoclingDocuments确保与 Docling 完全兼容。目前已经冲到了Huggingface 热门榜单 Top 3!




相关链接

  • 主页:https://huggingface.co/ds4sd/SmolDocling-256M-preview
  • 论文:https://arxiv.org/abs/2503.11576
  • 试用:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

特点:

  • 🏷️用于高效标记化的 DocTags - 引入了 DocTags,一种与DoclingDocuments完全兼容的高效且最小化的文档表示。
  • 🔍 OCR(光学字符识别)——从图像中准确提取文本。
  • 📐布局和本地化——保留文档结构和文档元素边界框。
  • 💻代码识别——检测并格式化代码块(包括标识)。
  • 🔢公式识别——识别和处理数学表达式。
  • 📊图表识别——提取并解释图表数据。
  • 📑表格识别——支持列和行标题以进行结构化表格提取。
  • 🖼️图形分类——区分图形和图形元素。
  • 📝标题对应——将标题链接到相关图像和图形。
  • 📜列表分组——正确组织和构造列表元素。
  • 📄全页转换——处理整个页面以进行全面的文档转换,包括所有页面元素(代码、公式、表格、图表等)。
  • 🔲带边界框的 OCR——使用边界框的 OCR 区域。
  • 📂通用文档处理——针对科学和非科学文档进行训练。
  • 🔄无缝 Docling 集成——导入Docling并以多种格式导出。
  • 💨使用 VLLM 进行快速推理——A100 GPU 上每页平均 0.35 秒。

即将推出!

  • 📊更好的图表识别🛠️
  • 📚一次性多页推理⏱️
  • 🧪化学识别
  • 📙数据集

论文介绍

SmolDocling是一种针对端到端文档转换的超紧凑视觉语言模型。该模型通过生成 DocTags 来全面处理整个页面,DocTags 是一种新的通用标记格式,可以捕获所有页面元素及其位置的完整上下文。与依赖大型基础模型的现有方法或依赖多个专门模型的手工管道的集成解决方案不同,SmolDocling 提供端到端转换,可在 256M 参数视觉语言模型中准确捕获文档元素的内容、结构和空间位置。SmolDocling 在正确再现各种文档类型(包括商业文档、学术论文、技术报告、专利和表格)中的文档特征(例如代码列表、表格、方程式、图表、列表等)方面表现出强大的性能——大大超出了通常关注的科学论文。

此外还为图表、表格、方程式和代码识别贡献了新的公开来源数据集。实验结果表明SmolDocling 可以与其他规模高达 27 倍的视觉语言模型相媲美,同时大幅降低计算要求。该模型目前可用,数据集将很快公开。

架构

模型架构如上图所示。SmolVLM-256M 依赖 SigLIP 基础 patch-16/512 (93M) 作为视觉主干,与同一模型的 2.2B 版本相比,其训练数据经过重新平衡,以强调文档理解 (41%) 和图像字幕 (14%),结合了 The Cauldron 、Docmatix 数据集并添加了 MathWriting。它使用 SmolLM-2 系列 (135M) 的轻量级变体作为语言主干,并采用激进的像素混洗方法,将每个 512x512 图像块压缩为 64 个视觉标记。最后但并非最不重要的是,通过将像素与标记的比率增加到每个标记 4096 像素并为子图像分隔符引入特殊标记,SmolVLM-256M 中的标记化效率也得到了提高。

DocTags 创建一个清晰且结构化的标签和规则系统,将文本与文档结构分开。这减少了混淆,使图像到序列模型的工作变得更容易。另一方面,直接转换为 HTML 或 Markdown 等格式可能会很麻烦 - 它通常会丢失细节,无法清楚地显示文档的布局,并且会增加标记数量,从而降低处理效率。DocTags 与 Docling 集成,允许导出为 HTML、Markdown 和 JSON。这些导出可以卸载到 CPU,从而减少标记生成开销并提高效率。

结论

SmolDocling是一种高效而紧凑的 VLM,针对文档转换进行了优化,同时提供了丰富的输出表示。还提供了一套具有统一格式的新数据集用于文档转换,包括代码列表转录的新任务。我们将页面元素定位确定为需要进一步改进的关键领域,其中有针对性的技术将在未来迭代中显著提高性能。我们的结果最终表明,具有统一、优化的输出格式(例如 DocTags)的较小模型可以有效地与较大的模型竞争,为资源高效的多任务文档理解模型建立了一条清晰的途径。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~








请到「今天看啥」查看全文