专栏名称: ChatAI42技术与产品
智能聊天机器人(Chatbots)是交互的新趋势,Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列,就等你了!我们会定期发布聊天机器人的各种信息,其中使用的机器学习/深度学习技术、产品、分享活动等等
目录
相关文章推荐
51好读  ›  专栏  ›  ChatAI42技术与产品

Pix2Text (P2T) 新版数学公式检测模型上线

ChatAI42技术与产品  · 公众号  · 机器人  · 2023-06-21 18:36

正文

Pix2Text (P2T) https://github.com/breezedeus/Pix2Text 期望成为 Mathpix 的免费开源 Python 替代工具,目前已经可以完成 Mathpix 的核心功能。P2T 自 V0.2 开始,支持识别既包含文字又包含公式的混合图片,返回效果类似于 MathpixP2T 的核心原理见下图(文字识别支持中文英文):

P2T 使用开源工具 CnSTD 检测出图片中数学公式所在位置,再交由 LaTeX-OCR 识别出各对应位置数学公式的Latex表示。图片的剩余部分再交由 CnOCR 进行文字检测和文字识别。最后 P2T 合并所有识别结果,获得最终的图片识别结果。感谢这些开源工具。

更多介绍参考 https://github.com/breezedeus/Pix2Text 。对于不想本地部署,只想使用公式识别功能的朋友,可以直接使用 P2T网页版 (https://p2t.behye.com) 

 

数学公式检测模型更新 (2023/06/13)

数学公式检测Mathematical Formula Detection,简称 MFD)其实是放在 CnSTD项目中的,P2T 只是调用 CnSTD 的这个模型罢了。所以本次更新也是 CnSTD 模型的更新。

加入混合图片

P2T网页版自发布以来,其实已经积累了很多用户的真实调用图片。前两周我花了不少时间,对其中的部分做了标注。标注对象主要针对中文图片。之前的MFD模型其实对英文的检测效果已经相当不错了,但是中文比较差。当时训练的中文数据只有我自己合成的CnMFD Dataset,缺乏真实图片。所以之前的模型对中文真实图片效果一般,尤其是中学试题类的图片。

这次新标注的数据,主要是既包含文字又包含数学公式的混合图片,其中又会重点关注中文的文字图片。以下是一些代表性图片:


加入纯公式图片

在标注过程中,发现之前的模型对于很窄(宽度小)的只包含一两个数学符号的纯公式图片识别的不好。

主要原因也是之前的训练数据中几乎没有纯公式的图片数据。

这个数据倒是基本不用标,之前在合成CnMFD Dataset数据时我就抽取了很多纯公式的图片patches,只要从这里面找出来一些代表图片即可。

  

这两种新的数据,相对于原有的训练数据,大概各加了 10% 左右到训练数据中。

训练后得到的新模型,对中文图片中的数学公式,以及纯公式窄图片的检测效果,要明显优于之前的模型。 

这个新模型已经部署到 P2T网页版 (https://p2t.behye.com),暂不对外开放下载,专供网页版使用,欢迎大家去体验下。

 

之前使用的 MFD YoloV7模型已开放给 知识星球CnOCR/CnSTD/P2T私享群 (https://t.zsxq.com/FEYZRJQ)免费使用。

不同版本的模型,一般会遵循以下的使用逻辑:

  • 最新的模型供 P2T网页版 使用,以及付费购买;

  • 次新的模型对星球会员开放;

  • 次次新的模型对所有人免费开放。



YoloV7 vs. YoloV7_Tiny 模型效果对比

相对于开源可免费使用的 YoloV7_Tiny 模型,YoloV7 模型大概是其6倍大,训练消耗的资源也差不多是这个倍数。下图是两个模型在测试集上效果的对比图(每个metric的具体含义请Google或者ChatGPT,它们都是越大越好)。

注意,下图蓝线其实是 version-20230613 版本的训练过程,因为之前的 YoloV7 模型的训练图找不到了。。但相对高低可以参考,version-20230613 主要是优化了中文图片和窄的孤立公式图片的检测效果。

从上图可以看到 YoloV7 相比 YoloV7_Tiny 模型,精度还是要好不少的,比如其召回率 0.973 提升到了 0.985(能检测出更多公式)。

模型下载和使用说明详见:P2T YoloV7 数学公式检测模型开放给星球会员下载(https://www.breezedeus.com/article/p2t-yolov7-for-zsxq-20230619)




More:

P2T YoloV7 数学公式检测模型开放给星球会员下载

    https://www.breezedeus.com/article/p2t-yolov7-for-zsxq-20230619

Pix2Text (P2T) 新版公式检测模型

    https://www.breezedeus.com/article/p2t-mfd-20230613

Pix2Text (P2T) 新版发布,离Mathpix又近了一大步