回复@改名续命b1:不知道有没有专业模型识别电路图的，但可以试试-20250209233103_宝玉xp的专栏文章_微信文章

回复@改名续命b1:不知道有没有专业模型识别电路图的，但可以试试-20250209233103

宝玉xp · 微博 · AI · 2025-02-09 23:31

正文

2025-02-09 23:31
本条微博链接

回复 @改名续命b1 :不知道有没有专业模型识别电路图的，但可以试试通用的多模态大语言模型，做的最好的多模态模型是Gemini，可以试试，其他模型也可以都试试看// @改名续命b1 :大佬，现在有模型可以识别电路或者类似图表吗？想用于报价场景，界面是一个画好的元器件组合的图，里面有各种规格的元器件，元器件价格不一，基于这个图算出总价，类似这样的场景

之前有一篇文章《处理数百万份 PDF，以及为何 Gemini 2.0 能改变一切 [译]》讲借助多模态的语言模型例如 Gemini 2.0 就可以低成本进行复杂 PDF 的解析。

今天又看到一篇《为什么用多模态语言模型对 PDF 做 OCR 表现并没有那么好？》，讲实际上面对现实场景，还是有很多细节上的问题，以及安全上的风险，比如说语言模型会因为图像分割时的问题导致识别错误，或者因为语言模型的特点，“自作聪明”的把一些拼写修改，把图片中的数学题给解答出来，甚至还可能因为一些“恶意”的提示词导致结果被污染。

就我个人的使用经历来说，用多模态语言模型做 OCR 还是挺简单方便，但确实有“幻觉”，需要人工校对。这篇文章的很多技术点都讲的不错，另外文章里面还有一段如何提取 PDF 表格的 Prompt 也可以作为参考。

两篇文章链接如下：
Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything

网页链接
Why LLMs Suck at OCR

回复@改名续命b1:不知道有没有专业模型识别电路图的，但可以试试-20250209233103

正文

请到「今天看啥」查看全文