Sergey Filimonov 在最新的文章中探讨了大规模 PDF 解析的挑战,以及为何 Gemini 2.0 可能会彻底改变这一领域。
★ 解析 PDF 的难点:
将 PDF 拆分成可机器读取的文本块(chunking)是所有 RAG(检索增强生成)系统的核心挑战。现有方案包括开源工具和商业服务,但它们在准确性、可扩展性和成本之间难以取得理想平衡。例如,NVIDIA 的 nv-ingest 需要 Kubernetes 集群和 A/H100 GPU,既昂贵又复杂,而许多商业方案即便昂贵也无法稳定处理复杂文档布局。
★ Gemini Flash 2.0 带来的变革
在内测中,Gemini Flash 2.0 在 OCR 解析方面的准确率几乎完美,同时成本极低:
- Gemini 2.0 Flash:每美元可解析约 6,000 页
- AWS Textract:约 1,000 页
- OpenAI GPT-4o:约 200 页
- Anthropic Claude 3.5 Sonnet:约 100 页
尽管 Gemini 2.0 Flash 的表格解析准确率略低于 Reducto 的专有模型(0.84 vs 0.90),但误差主要体现在格式,而非数值错误,因此对 LLM 的实际理解影响不大。
★ 结合 LLM 进行文本切分(Chunking)
解析只是第一步,RAG 系统需要语义合理的文本块。研究表明,LLM 在此任务上优于传统方法,但高昂的计算成本一直是障碍。Gemini Flash 2.0 的低成本使得 LLM 进行大规模 chunking 变得可行。例如,解析并切分 1 亿页文档仅需 $5,000,比部分向量数据库的月费还便宜。
★ 仍待解决的问题:缺失的边界框(Bounding Boxes)
Markdown 转换和 chunking 解决了结构化文本的问题,但丢失了 PDF 原始的 边界框信息,即文本在页面中的精确位置。这对高可信度引用至关重要。尽管 LLM 在空间理解上有进展(例如 Gemini 能生成鸟群的准确边界框),但当前版本在 PDF 布局识别上表现不佳,导致 bounding box 定位不准确。
★ 未来展望
如果 Google 在模型训练时加入更多文档布局数据,或者进行专门的微调,问题可能会迎刃而解。随着解析、chunking 和边界框检测技术的不断完善,LLM 在文档解析方面的能力将接近“自动化处理”的理想状态。等 #deepseek# API放开后也可以测测
原文链接:sergeyfilimonov.com/articles/gemini-2-0-changes-pdf-ingestion
#ai创造营# #程序员#
★ 解析 PDF 的难点:
将 PDF 拆分成可机器读取的文本块(chunking)是所有 RAG(检索增强生成)系统的核心挑战。现有方案包括开源工具和商业服务,但它们在准确性、可扩展性和成本之间难以取得理想平衡。例如,NVIDIA 的 nv-ingest 需要 Kubernetes 集群和 A/H100 GPU,既昂贵又复杂,而许多商业方案即便昂贵也无法稳定处理复杂文档布局。
★ Gemini Flash 2.0 带来的变革
在内测中,Gemini Flash 2.0 在 OCR 解析方面的准确率几乎完美,同时成本极低:
- Gemini 2.0 Flash:每美元可解析约 6,000 页
- AWS Textract:约 1,000 页
- OpenAI GPT-4o:约 200 页
- Anthropic Claude 3.5 Sonnet:约 100 页
尽管 Gemini 2.0 Flash 的表格解析准确率略低于 Reducto 的专有模型(0.84 vs 0.90),但误差主要体现在格式,而非数值错误,因此对 LLM 的实际理解影响不大。
★ 结合 LLM 进行文本切分(Chunking)
解析只是第一步,RAG 系统需要语义合理的文本块。研究表明,LLM 在此任务上优于传统方法,但高昂的计算成本一直是障碍。Gemini Flash 2.0 的低成本使得 LLM 进行大规模 chunking 变得可行。例如,解析并切分 1 亿页文档仅需 $5,000,比部分向量数据库的月费还便宜。
★ 仍待解决的问题:缺失的边界框(Bounding Boxes)
Markdown 转换和 chunking 解决了结构化文本的问题,但丢失了 PDF 原始的 边界框信息,即文本在页面中的精确位置。这对高可信度引用至关重要。尽管 LLM 在空间理解上有进展(例如 Gemini 能生成鸟群的准确边界框),但当前版本在 PDF 布局识别上表现不佳,导致 bounding box 定位不准确。
★ 未来展望
如果 Google 在模型训练时加入更多文档布局数据,或者进行专门的微调,问题可能会迎刃而解。随着解析、chunking 和边界框检测技术的不断完善,LLM 在文档解析方面的能力将接近“自动化处理”的理想状态。等 #deepseek# API放开后也可以测测
原文链接:sergeyfilimonov.com/articles/gemini-2-0-changes-pdf-ingestion
#ai创造营# #程序员#