又一个新 LaTeX 公式识别工具来了-端到端公式识别模型的新突破

LaTeX工作室 · 公众号 · · 2024-12-06 06:59

正文

大家好，今天我们要介绍一个令人兴奋的开源项目——TexTeller，这是一个基于 TrOCR 的端到端公式识别模型，能够将图片中的公式转换为对应的 LaTeX 公式。这个项目不仅在技术上取得了重大突破，而且在实际应用中也展现出了强大的泛化能力和高准确率。

TexTeller 通过使用 80M 个图片-公式对进行训练，相较于其他同类项目如 LaTeX-OCR（仅使用 100K 数据集），TexTeller 在识别生僻符号、复杂多行和矩阵方面展现出了更强的性能。以下是 TexTeller 的一些核心特点：

强大的泛化能力 ：能够覆盖大部分使用场景，包括扫描图片、手写公式以及中英文混合的公式。
高准确率 ：在打印图片上具有通用的中英文识别能力。
持续更新 ：项目团队不断更新，最近一次更新在 2024 年 6 月 6 日，发布了 TexTeller3.0 版本，训练数据集增加到了 80M，是 2.0 版本的 10 倍。
段落识别 ：支持段落级别的识别，进一步提升了识别效果。

使用 TexTeller 非常简单，只需要几个步骤：

对于更高级的用户，TexTeller 还支持段落识别和 API 调用，可以将 TexTeller 整合到自己的项目中。

如果你在使用过程中遇到无法连接到 Hugging Face 的问题，TexTeller 提供了解决方案。你可以在能连接 Hugging Face 的机器上下载模型权重，然后将权重上传到远端服务器，并修改项目配置以指向本地权重路径。

TexTeller 还提供了网页演示功能，你可以通过运行简单的脚本来启动本地服务器，并在浏览器中查看识别效果。此外，TexTeller 的公式检测模型在大量数据集上训练得到，能够支持对整张图片进行公式检测。

TexTeller 作为一个强大的公式识别工具，不仅在技术上领先，而且在用户体验上也做得非常出色。如果你对 TexTeller 感兴趣，不妨去 GitHub 上查看更多详情，并尝试使用它来提升你的工作效率。同时，不要忘记给这个项目点亮 Star⭐️，以支持开发者的辛勤工作。

希望这篇文章能帮助你更好地了解 TexTeller，让我们一起期待它未来的发展！

成为 LaTeX 会员，尽享精致科研！

开通地址：

https://www.latexstudio.net/index/recharge/choice.html