欧洲「DeepSeek」发布了全世界最好的 OCR，网友：蹲蹲中国的免费开源版

AI科技评论 · 公众号 · · 2025-03-07 18:07

正文

继开源首个 MoE 模型后，他们又发布了千页只需 7 块钱的文件扫描 API。

作者丨郑佳美

编辑丨马晓宁

就在刚刚，那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。

Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OCR， 旨在将一些 AI 难以直接识别的粗糙且复杂的文件进行整理，便于 AI 操作识别。

帖子一经发出，评论区瞬间充满了各种夸夸言论，但在一众赞美声中，也不乏一些真正用过产品的网友的理智发言。

就比如有网友对 Mistral OCR 的产品能力表示认同，但却有点接受不了它的产品定价，觉得有点太贵，并且期待中国 AI 公司早点发布一个类似的开源版本，把价格打下来。

同时也有网友亲自上手，上传扫描了手写板的内容，但最后识别出的文字结果正确率并不是很高。

除此之外，还有被 Mistral 所宣传的“可以识别超多种语言”噱头吸引过来的网友，但使用后却失望的发现它无法识别自己所用语言。

尽管 Mistral OCR 目前还存在着一定的局限性，但它的出现确实是一次从字符识别到场景智能的跨越。

从图文到结构化数据的一大步

与传统的 OCR API 不同，Mistral OCR 是一款多模态 API，它不仅可以识别文本中是否嵌入了插图或照片，还会为这些图形元素创建边界框，并将它们包含在输出中。

从 Mistral AI 团队放出的 Demo 视频可以看出，Mistral OCR 能够将图文混排的 PDF 文件转换成结构清晰的 Markdown 格式文件。

例如表格+数字的 PDF 组合。

PDF 图片中数学公式的转换。

PDF 宣传图片中的印地语。

拍得并不方正的论文照片。

甚至带有水印的文字也可以轻松识别。

从字符识别到场景智能的一大步

除了直观的 Demo 外，Mistral AI 团队还列举了 6 点 Mistral OCR 的绝对优势：

卓越的复杂文档解析能力 ：Mistral OCR 在理解复杂文档结构方面表现出色，能够精准解析交错的图像、数学公式、表格以及 LaTeX 等高级排版格式。这使其在处理包含图表、图形、公式和插图的科学论文等富文本文档时更具优势。

同类产品中处理速度最快 ：Mistral OCR 采用轻量化架构，处理速度远超同类产品，单节点每分钟可解析高达 2000 页文档。无论在高负载环境还是大规模数据处理中，它都能保持高效运行，确保稳定性能。

创新性的“文档即提示”结构化输出 ：Mistral OCR 率先引入“文档即提示”概念，使用户能够直接使用文档作为指令，以获取更加精准和定制化的结果。它还能输出 JSON 等结构化格式，便于与后续任务或自动化流程衔接，实现更智能的内容提取。

可选的自托管部署方案 ：针对数据隐私要求严格的企业或机构，Mistral OCR 提供自托管部署选项，确保敏感信息始终存储在本地基础设施内，满足合规性与安全性需求。

团队还将 Mistral OCR 将 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o 的产品性能进行对比。

最终的结果表明，Mistral OCR 在总体准确率、数学公式识别等方面表现优异，特别是在 2503 版本中，各项指标均大幅提升，达到了新的高度。

在多语言处理方面，得出的数据更是远远优于 Google Document AI 和 Azure OCR。

欧洲也有自己的“DeepSeek”