专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
昆明发布  ·  西服从天而降 无人机配送真的来了! ·  9 小时前  
春城晚报  ·  云南一医院宣布:集中清退! ·  昨天  
51好读  ›  专栏  ›  AI科技评论

欧洲「DeepSeek」发布了全世界最好的 OCR,网友:蹲蹲中国的免费开源版

AI科技评论  · 公众号  ·  · 2025-03-07 18:07

正文

图片
继开源首个 MoE 模型后,他们又发布了千页只需 7 块钱的文件扫描 API。

作者丨郑佳美

编辑丨马晓宁

就在刚刚,那个曾经开源了首个 MoE 模型的欧洲初创公司 Mistral AI 在沉寂一段时间之后又出新活。

Mistral 团队发布了一个号称“全世界最好的 OCR”的产品 —— Mistral OCR, 旨在将一些 AI 难以直接识别的粗糙且复杂的文件进行整理,便于 AI 操作识别。

帖子一经发出,评论区瞬间充满了各种夸夸言论,但在一众赞美声中,也不乏一些真正用过产品的网友的理智发言。

就比如有网友对 Mistral OCR 的产品能力表示认同,但却有点接受不了它的产品定价,觉得有点太贵,并且期待中国 AI 公司早点发布一个类似的开源版本,把价格打下来。

同时也有网友亲自上手,上传扫描了手写板的内容,但最后识别出的文字结果正确率并不是很高。

除此之外,还有被 Mistral 所宣传的“可以识别超多种语言”噱头吸引过来的网友,但使用后却失望的发现它无法识别自己所用语言。

尽管 Mistral OCR 目前还存在着一定的局限性,但它的出现确实是一次从字符识别到场景智能的跨越。


1

从图文到结构化数据的一大步

与传统的 OCR API 不同,Mistral OCR 是一款多模态 API,它不仅可以识别文本中是否嵌入了插图或照片,还会为这些图形元素创建边界框,并将它们包含在输出中。

从 Mistral AI 团队放出的 Demo 视频可以看出,Mistral OCR 能够将图文混排的 PDF 文件转换成结构清晰的 Markdown 格式文件。

例如表格+数字的 PDF 组合。

PDF 图片中数学公式的转换。

PDF 宣传图片中的印地语。

拍得并不方正的论文照片。

甚至带有水印的文字也可以轻松识别。


2

从字符识别到场景智能的一大步

除了直观的 Demo 外,Mistral AI 团队还列举了 6 点 Mistral OCR 的绝对优势:

  • 卓越的复杂文档解析能力 :Mistral OCR 在理解复杂文档结构方面表现出色,能够精准解析交错的图像、数学公式、表格以及 LaTeX 等高级排版格式。这使其在处理包含图表、图形、公式和插图的科学论文等富文本文档时更具优势。

  • 原生支持多语言与多模态 :Mistral OCR 自带多语言和多模态处理能力,能够灵活应对不同语言以及多种类型的内容,无需额外适配。

  • 行业领先的基准测试表现 :在多项行业基准测试中,Mistral OCR 均取得优异成绩,充分展示了其强劲的性能和高准确度。

  • 同类产品中处理速度最快 :Mistral OCR 采用轻量化架构,处理速度远超同类产品,单节点每分钟可解析高达 2000 页文档。无论在高负载环境还是大规模数据处理中,它都能保持高效运行,确保稳定性能。

  • 创新性的“文档即提示”结构化输出 :Mistral OCR 率先引入“文档即提示”概念,使用户能够直接使用文档作为指令,以获取更加精准和定制化的结果。它还能输出 JSON 等结构化格式,便于与后续任务或自动化流程衔接,实现更智能的内容提取。

  • 可选的自托管部署方案 :针对数据隐私要求严格的企业或机构,Mistral OCR 提供自托管部署选项,确保敏感信息始终存储在本地基础设施内,满足合规性与安全性需求。

团队还将 Mistral OCR 将 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o 的产品性能进行对比。

最终的结果表明,Mistral OCR 在总体准确率、数学公式识别等方面表现优异,特别是在 2503 版本中,各项指标均大幅提升,达到了新的高度。

在多语言处理方面,得出的数据更是远远优于 Google Document AI 和 Azure OCR。


3

欧洲也有自己的“DeepSeek”






请到「今天看啥」查看全文