Sergey Filimonov 在最新的文章中探讨了大规模 P-20250210204331_黄建同学的专栏文章_微信文章

Sergey Filimonov 在最新的文章中探讨了大规模 PDF 解析的挑战，以及为何 Gemini 2.0 可能会彻底改变这一领域。

★ 解析 PDF 的难点：

将 PDF 拆分成可机器读取的文本块（chunking）是所有 RAG（检索增强生成）系统的核心挑战。现有方案包括开源工具和商业服务，但它们在准确性、可扩展性和成本之间难以取得理想平衡。例如，NVIDIA 的 nv-ingest 需要 Kubernetes 集群和 A/H100 GPU，既昂贵又复杂，而许多商业方案即便昂贵也无法稳定处理复杂文档布局。

★ Gemini Flash 2.0 带来的变革

在内测中，Gemini Flash 2.0 在 OCR 解析方面的准确率几乎完美，同时成本极低：
- Gemini 2.0 Flash：每美元可解析约 6,000 页
- AWS Textract：约 1,000 页
- OpenAI GPT-4o：约 200 页
- Anthropic Claude 3.5 Sonnet：约 100 页

尽管 Gemini 2.0 Flash 的表格解析准确率略低于 Reducto 的专有模型（0.84 vs 0.90），但误差主要体现在格式，而非数值错误，因此对 LLM 的实际理解影响不大。

★ 结合 LLM 进行文本切分（Chunking）

解析只是第一步，RAG 系统需要语义合理的文本块。研究表明，LLM 在此任务上优于传统方法，但高昂的计算成本一直是障碍。Gemini Flash 2.0 的低成本使得 LLM 进行大规模 chunking 变得可行。例如，解析并切分 1 亿页文档仅需 $5,000，比部分向量数据库的月费还便宜。

★ 仍待解决的问题：缺失的边界框（Bounding Boxes）

Markdown 转换和 chunking 解决了结构化文本的问题，但丢失了 PDF 原始的边界框信息，即文本在页面中的精确位置。这对高可信度引用至关重要。尽管 LLM 在空间理解上有进展（例如 Gemini 能生成鸟群的准确边界框），但当前版本在 PDF 布局识别上表现不佳，导致 bounding box 定位不准确。

★ 未来展望

如果 Google 在模型训练时加入更多文档布局数据，或者进行专门的微调，问题可能会迎刃而解。随着解析、chunking 和边界框检测技术的不断完善，LLM 在文档解析方面的能力将接近“自动化处理”的理想状态。等 #deepseek# API放开后也可以测测

原文链接：sergeyfilimonov.com/articles/gemini-2-0-changes-pdf-ingestion

#ai创造营# #程序员#

Sergey Filimonov 在最新的文章中探讨了大规模 P-20250210204331

正文

2025-02-10 20:43
本条微博链接

请到「今天看啥」查看全文