问：参加展会，需要将展会信息扫描成PDF然后做OCR，但是手工摘-20240902124431_宝玉xp的专栏文章_微信文章

问：参加展会，需要将展会信息扫描成PDF然后做OCR，但是手工摘录供应商信息效率太低。尝试对PDF分割做分割后OCR，再让GPT识别生成文本字段，但是有些供应商字段不完整，无法直接输出到Excel，效率很低。该如何去改善？（参考图1）

答：
OCR 建议使用 Gemini 模型，比GPT效果识别效果更好

没有必要预先对PDF预分割处理，整张图片直接发给 Gemini 就可以帮你自动识别不同厂商和各个字段

优先考虑使用 JSON 格式提取结构化数据，CSV 格式不是 Gemini 这样的模型擅长的模式，输出时经常会出现错乱。

可以根据厂商信息预先定义好JSON的格式，要求包含哪些字段，那么 Gemini 在生成时会自动帮你填充到对应字段，在定义Schema时，将字段定义为不是必须要有的，那么没有相应的内容在输出时就会跳过，不会影响整体输出。(参考图2）

提示词可以比较简单：
> 请将展商目录中的展商信息按照JSON Schema的定义提取成JSON数组。

从截图（图3）中可以看出，基本上很完美的输出了期望的JSON格式，按照想要的结果都填充到了相应的字段。

得到JSON格式后，可以用一段小程序（Python、Javascript等），将JSON读取后转成CSV文件。

整个过程也可以用Python或者JS这种程序写成代码，用代码去将PDF转成每一页一张图片，调用 Gemini API 去解析图片获得 JSON 结果，解析 JSON 结果，拼接后生成一个大的CSV 文件。（理论上来说这么简单的程序让 Cursor、GPT-4、Claude 3.5 都是可以搞定的）

关键部分还是在大语言模型部分，要善于利用大语言模型，借助提示词，让其返回“你想要的格式”+“它擅长的格式”。再配合代码将整个过程自动化。

很多时候“你想要的格式”并不是它擅长的，比如 Excel 或者 CSV，这时候就要学会变通，让其生成它擅长你也可以借助程序转换成“你想要的格式”，比如 JSON 格式。

问：参加展会，需要将展会信息扫描成PDF然后做OCR，但是手工摘-20240902124431

正文

2024-09-02 12:44
本条微博链接