关于OCR任务这块,可以看看《CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy》,https://arxiv.org/pdf/2412.02210,有效评估大型多模态模型(LMMs)在复杂视觉和文本理解任务中的表现,特别是在自然语言指令下的文档图像识别任务。
KOSMOS2.5:《KOSMOS-2.5: A Multimodal Literate Model》(https://arxiv.org/abs/2309.11419),构建了一个包含3.574亿页文档图像的大型语料库,涵盖扫描文档、普通文档、学术论文、网页、设计图像、手写文本、数学内容和项目文档。每份文档都用文本行和边界框或Markdown格式进行注释。
《TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document》(https://arxiv.org/abs/2403.04473),使用滑动窗口模块将高分辨率图像分割成窗口块,然后使用Transformer块单独处理每个窗口块。为了建立不同窗口块之间的联系,模型在特定间隔内集成了移位窗口注意力,通过共享图像重采样器处理子图像特征,然后与语言领域对齐,最终,使用Token Resampler进一步减少语言空间中的冗余,通过压缩token长度来减少冗余。
3、Florence
《Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks》(https://arxiv.org/pdf/2311.06242),采用序列到序列(seq2seq)结构,包含图像编码器和多模态编码器-解码器。图像编码器将图像转换为视觉token嵌入,与文本嵌入结合后由Transformer处理。
这个其实也算不上是OCR模型。
4、GOT
《General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model》(https://arxiv.org/pdf/2409.01704)提出了一个名为GOT的模型,用于解决OCR任务中的多样化需求。