专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
机器之心  ·  DeepSeek冲击下,奥特曼刚刚给出对AG ... ·  昨天  
爱可可-爱生活  ·  通俗版解读 查看图片-20250210071520 ·  昨天  
爱可可-爱生活  ·  【Google最新的Gemini ... ·  2 天前  
爱可可-爱生活  ·  【Agentic Object ... ·  3 天前  
爱可可-爱生活  ·  【[99星]Ollama模型直链生成与安装工 ... ·  4 天前  
51好读  ›  专栏  ›  黄建同学

Sergey Filimonov 在最新的文章中探讨了大规模 P-20250210204331

黄建同学  · 微博  · AI  · 2025-02-10 20:43

正文

2025-02-10 20:43

Sergey Filimonov 在最新的文章中探讨了大规模 PDF 解析的挑战,以及为何 Gemini 2.0 可能会彻底改变这一领域。

★ 解析 PDF 的难点:

将 PDF 拆分成可机器读取的文本块(chunking)是所有 RAG(检索增强生成)系统的核心挑战。现有方案包括开源工具和商业服务,但它们在准确性、可扩展性和成本之间难以取得理想平衡。例如,NVIDIA 的 nv-ingest 需要 Kubernetes 集群和 A/H100 GPU,既昂贵又复杂,而许多商业方案即便昂贵也无法稳定处理复杂文档布局。

★ Gemini Flash 2.0 带来的变革

在内测中,Gemini Flash 2.0 在 OCR 解析方面的准确率几乎完美,同时成本极低:
- Gemini 2.0 Flash:每美元可解析约 6,000 页
- AWS Textract:约 1,000 页
- OpenAI GPT-4o:约 200 页
- Anthropic Claude 3.5 Sonnet:约 100 页

尽管 Gemini 2.0 Flash 的表格解析准确率略低于 Reducto 的专有模型(0.84 vs 0.90),但误差主要体现在格式,而非数值错误,因此对 LLM 的实际理解影响不大。

★ 结合 LLM 进行文本切分(Chunking)

解析只是第一步,RAG 系统需要语义合理的文本块。研究表明,LLM 在此任务上优于传统方法,但高昂的计算成本一直是障碍。Gemini Flash 2.0 的低成本使得 LLM 进行大规模 chunking 变得可行。例如,解析并切分 1 亿页文档仅需 $5,000,比部分向量数据库的月费还便宜。

★ 仍待解决的问题:缺失的边界框(Bounding Boxes)

Markdown 转换和 chunking 解决了结构化文本的问题,但丢失了 PDF 原始的 边界框信息,即文本在页面中的精确位置。这对高可信度引用至关重要。尽管 LLM 在空间理解上有进展(例如 Gemini 能生成鸟群的准确边界框),但当前版本在 PDF 布局识别上表现不佳,导致 bounding box 定位不准确。

★ 未来展望

如果 Google 在模型训练时加入更多文档布局数据,或者进行专门的微调,问题可能会迎刃而解。随着解析、chunking 和边界框检测技术的不断完善,LLM 在文档解析方面的能力将接近“自动化处理”的理想状态。等 #deepseek# API放开后也可以测测 [憧憬]

原文链接:sergeyfilimonov.com/articles/gemini-2-0-changes-pdf-ingestion

#ai创造营# #程序员#






请到「今天看啥」查看全文