专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
北京经信局  ·  事关人形机器人关键技术!这项新标准,已立项! ·  6 小时前  
北京经信局  ·  事关人形机器人关键技术!这项新标准,已立项! ·  6 小时前  
调研纪要  ·  机器人破圈 ·  23 小时前  
调研纪要  ·  机器人破圈 ·  23 小时前  
财联社AI daily  ·  宇树人形机器人,下架! ·  昨天  
财联社AI daily  ·  宇树人形机器人,下架! ·  昨天  
ChatAI42技术与产品  ·  估计KL散度的艺术:平衡偏差与方差的实用指南 ·  昨天  
51好读  ›  专栏  ›  极市平台

一口气看8页!图文并茂的文档交互式多模态大模型-Fox

极市平台  · 公众号  ·  · 2024-05-31 17:06

正文

↑ 点击 蓝字 关注极市平台
作者丨刘成龙
编辑丨极市平台

极市导读

最近,旷视打造了一支多模态大模型的“点读笔”-Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

最近,旷视打造了一支多模态大模型的“点读笔”-Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。

对于信息密集的PDF文档,Fox支持 高可控性的细粒度理解 ,比如在 用户感兴趣区域内 进行文字识别、段落翻译以及页面内部的图片内容描述等。

“一图胜千言”—— one image token >> one text token。本文中,我们进一步突破了对于文档的视觉感知理解的上限,高密度的信息被真正压缩,LVLM真正地“看”懂图,才能真正做好、做出能用的文档多模大模型。更多细节请看我们的paper。

论文地址: https://arxiv.org/abs/2405.14295

代码地址: https://github.com/ucaslcl/Fox

项目主页: https://ucaslcl.github.io/foxhome/

Fox的效果展示:

(1) 中英混合、单栏多栏混合的8页 PDF文档,任意区域的OCR:

(2)下图左侧展示了 8页文档内跨页的VQA 。右侧展示了 双栏中文页面 的前景OCR。

(3) 双栏密集英文页面 的前景OCR:

(4) 页面内图片描述: Fox能给出文档内内容关联的回答(young Dual Language Learners)。当然Fox还支持 line-level OCR ,以及对 RoI区域的翻译、总结 等。

(5)Fox可以结合页面内文字,认识到这是一张关于 global seismic hazards 的图。此外,Fox还支持 RoI内的latex格式转换 ,例如下面的table转latex。Fox还支持更加灵活的 颜色引导的RoI区域OCR

(6)对于 卡通绘本 ,也可以哪里不会点哪里:

(7)电影海报和自然场景的对话问答,Fox给出了非常有趣的答案(根据电影海报下面的文字给出了角色来源):

方法简介

Fox的模型结构如上图所示。Fox支持单页/多页文档图像输入,所有图像的image token被统一到一个sequence中进行多页文档理解。我们设计了基于 point、color、box 的prompt,来实现在文档页面上聚焦任意位置。我们合成了图文交织的文档数据,来充分催化两个视觉词表,以更好地适用于实际文档应用场景。

此外,为了促进对文档细粒度理解的研究,作者还打造了一个中英双语的benchmark,已经开源了数据和评测代码,共包含以下9种任务:
(1) Page-level OCR
(2) Region-level OCR
(3) Line-level OCR
(4) Color-guided OCR
(5) Region-level translation
(6) Region-level summary
(7) In-document figure caption
(8) Multi-page multi-region OCR
(9) Cross-page VQA

总结

我们呼吁更多的研究人员能关注到细粒度的单页/多页文档理解,单页的稀疏的问答任务远远不够。

真正做好多模态大模型,视觉编码器的信息压缩率(token转化率)是非常重要的,Fox仅探究了文档这一类应用方向。希望对大家的研究有所帮助!

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货







请到「今天看啥」查看全文


推荐文章
调研纪要  ·  机器人破圈
23 小时前
调研纪要  ·  机器人破圈
23 小时前
财联社AI daily  ·  宇树人形机器人,下架!
昨天
财联社AI daily  ·  宇树人形机器人,下架!
昨天
钱皓频道  ·  ofo战上海:免押金成新杀手锏
7 年前
机器学习研究会  ·  机器学习六步曲——“小马医生”养成记
7 年前