专栏名称: 顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
目录
相关文章推荐
荆门社区网  ·  荆门脱单必看|最新一批95后单身女生... ·  22 小时前  
荆门社区网  ·  荆门脱单必看|最新一批95后单身女生... ·  22 小时前  
营销案例精选  ·  最燃女性汽车广告,被摄影博主拍出来了! ·  2 天前  
营销案例精选  ·  最燃女性汽车广告,被摄影博主拍出来了! ·  2 天前  
51好读  ›  专栏  ›  顶层架构领域

人工智能多场景轻量化版式分析模型 360LayoutAnalysis

顶层架构领域  · 公众号  ·  · 2024-08-24 10:00

正文

点击上方 蓝色 顶层架构领域 ”,关注精彩与你分享

360LayoutAnalysis 是由360 AI研究院开发的一个开源项目,专注于文档版式分析,即从扫描的文档图像中识别和提取文本、图像、表格和其他元素。 该项目提供了中文论文、英文论文、中文研报三个垂直领域的模型,以及一个通用场景模型,能够支持多场景的文档版式分析需求。

一、核心特性

多场景支持 :覆盖中文论文、英文论文、中文研报等多个垂直领域及通用场景模型。

轻量化设计 :基于yolov8训练,单模型大小仅为6.23MB,便于部署和使用。

段落信息提取 :中文论文场景模型包含段落信息,有利于文本的语义理解和信息提取。

高精度分析 :中文研报场景和通用场景模型基于数万级别的高质量数据训练,保证了分析的准确性。

开源商用许可 :支持商用,可通过官方邮箱申请商业用途许可。

易用性 :提供详细的使用说明和代码示例,便于用户快速上手。

二、技术实现

第一种方案: 针对不同文档类型,可通过解析内部xml文件等简单方式实现,但无法处理扫描版文档且易丢失结构化信息。

第二种方案: 基于OCR-pipeline,能处理扫描版文档并精细处理文档元素,但存在误差传播和大量工作需优化的问题。

第三种方案: OCR-FREE路线,端到端、技术前沿,但存在多模态大模型的幻觉问题和大量训练数据需求,处理速度也较慢。

360LayoutAnalysis 使用基于yolov8的模型进行训练,能够快速地进行轻量化推理。用户可以通过简单的代码示例初始化YOLO模型并加载权重,进而对文档图像进行预测,并根据置信度阈值和其他参数设置来获取所需的预测结果。

三、使用示例

权重下载地址: https://huggingface.co/qihoo360/360LayoutAnalysis

开源权重使用yolov8进行训练,预测方式如下:

from ultralytics import YOLO

image_path = '' # 待预测图片路径
model_path = '' # 权重路径
model = YOLO(model_path)

result = model(image_path, save=True, conf=0.5, save_crop=False, line_width=2)
print(result)

print(result[0].names) # 输出id2label map







请到「今天看啥」查看全文