专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
资质体系认证中心  ·  2025继续升温!多地DCMM鼓励政策持续实 ... ·  昨天  
资质体系认证中心  ·  2025继续升温!多地DCMM鼓励政策持续实 ... ·  昨天  
数据派THU  ·  Meta、斯坦福等:AI的下一个前沿,正是陶 ... ·  3 天前  
大数据分析和人工智能  ·  26岁OpenAI举报人疑自杀!死前揭Cha ... ·  6 天前  
51好读  ›  专栏  ›  数据派THU

【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取

数据派THU  · 公众号  · 大数据  · 2025-01-08 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

结果表明,我们的SAIL方法在无训练基准方法中表现出色,甚至接近全训练方法,展示了我们方法的优越性和泛化能力。


文档信息提取(DIE)旨在从视觉丰富文档(VRDs)中提取结构化信息。以往的全训练方法已展示出强大的性能,但在面对未见数据时可能存在泛化困难。相比之下,无训练方法利用强大的预训练模型,如大语言模型(LLMs),通过少量示例处理各种下游任务。然而,无训练方法在文档信息提取(DIE)中面临两个主要挑战:(1)理解VRD中布局与文本元素之间的复杂关系;(2)为预训练模型提供准确的指导。为解决这些挑战,我们提出了面向样本的上下文学习(SAIL)方法。SAIL引入了细粒度的实体级文本相似度,促进了LLMs的深度文本分析,并结合了布局相似度,增强了对VRD中布局的分析。此外,SAIL为各种面向样本的示例制定了统一的上下文学习(ICL)提示模板,使得为每个示例提供定制化的提示,能够为预训练模型提供精确的指导。我们在FUNSDCORDSROIE基准数据集上进行了广泛实验,使用了多种基础模型(例如,LLMs),结果表明,我们的SAIL方法在无训练基准方法中表现出色,甚至接近全训练方法,展示了我们方法的优越性和泛化能力。
代码 — https://github.com/sky-goldfish/SAIL



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU