专栏名称: 飞桨PaddlePaddle
源于产业实践的开源深度学习平台
目录
相关文章推荐
汇易咨询  ·  印度工厂火灾触发烟酰胺底部回升 ... ·  2 天前  
51好读  ›  专栏  ›  飞桨PaddlePaddle

通用信息抽取大模型PP-UIE开源发布,强化零样本学习与长文本抽取能力,全面适配多场景任务

飞桨PaddlePaddle  · 公众号  ·  · 2025-02-19 19:46

正文

飞桨PaddlePaddle



背景与简介


信息抽取(information extraction)是指,从非结构化或半结构化数据(如自然语言文本)中自动识别、提取并组织出结构化信息。通常包含多个子任务,例如:命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)。由于任务目标的多样性(如实体、关系、事件和情感等)、文本结构的异构性(如片段、三元组、记录等)以及特定应用需求的多变性,传统的信息抽取方法往往针对特定任务或领域进行优化,难以在跨任务或跨领域的情境中迁移和泛化。

随着大语言模型的发展,通用信息抽取大模型逐渐成为主流。此类模型将不同任务和领域统一为端到端的框架,并能够在未见过的数据或领域上展现出较好的性能。然而,当前主流的通用信息抽取大模型通常规模较大,这些模型在本地部署时,面临推理速度较慢、计算资源受限等问题,难以满足实际应用的需求。
为应对上述挑战, 飞桨团队基于开源模型和高质量数据集,开发了通用信息抽取大模型PP-UIE 。PP-UIE借鉴了百度UIE的建模思想,旨在支持中英文信息抽取任务。模型涵盖命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等任务,提供0.5B、1.5B、7B和14B四个版本,以适应不同场景中的需求。同时模型在零样本预测能力上,在多个数据集(包含 Boson、CLUENER、CCIR2021等常见数据集)相比传统UIE-Base模型的抽取效果大幅度得到提升,具备更好的实用价值。




产品亮点

1. 效果更佳的零样本信息抽取能力
PP-UIE具备强零样本学习能力,能快速适应新任务和数据,相比UIE-Base模型在 通用领域、新闻领域等多个数据上效果抽取效果平均提升 66% 相比开源信息抽取大模型YaYi-UIE在F1指标上提高 18.3个 百分点,相比 DeepSeek-R1-Distill-Qwen-14B 在F1指标上提高 25.8个 百分点 同时PP-UIE具备更好小样本能力,只需要 1-10 条样本就可以快速提升模型在特定业务上的效果,相比传统的信息抽取模型,大幅降低数据标注成本。
2. 强大的长文档信息抽取能力
PP-UIE具备处理长文本能力,能跨越多个段落或句子识别关键信息,形成完整理解。该能力对于大型文档等复杂文本尤为重要,传统的UIE-Base模型只能支持 256 个Token长度的文本抽取,而PP-UIE可以支持 8192 个Token长度文档的信息抽取,支持的文本长度提升 3 2倍
3. 完备的大模型信息抽取定制能力
本模型基于PaddleNLP 3.0,提供模块化、可定制化的训练和推理流程,支持灵活调整以满足不同需求。训练效率较LLama-Factory提升 1.8倍 同时,在推理阶段,PaddleNLP 3.0还为用户提供了便捷的调用方式,助力用户快速完成模型的部署与实际应用。 
欢迎开发者前往 开源项目主页 直接体验:
https://github.com/PaddlePaddle/PaddleNLP

亮点一: 效果更佳的零样本信息抽取能力

信息抽取任务中,要获取高质量的标注数据不仅成本高昂,而且耗时长。为了应对这一挑战,PaddleNLP开发的通用信息抽取大模型特别强化了零样本(Zero-shot)学习的能力,旨在通过少量甚至没有标注数据的支持,实现快速冷启动和高效迁移学习。

下表为模型在各数据集的零样本(zero-shot)和小样本(few-shot)能力。

从表格中可以看出,随着模型规模的增大,无论是零样本(zero-shot)能力还是小样本(few-shot)能力都有显著提升。具体来说:
  • 在零样本(zero-shot)任务中,模型的表现随着规模的增加逐步提高。例如,PP-UIE-0.5B模型在CMeEE数据集中F1分数为0.479,而PP-UIE-14B模型的F1分数则达到了0.556,显示出明显的提升。

输入:"2月5日,杞县公安局成功侦破两起以出售口罩为名实施诈骗的案件,3名嫌疑人被依法处理. 1月29日,杞县阳堌镇北村贺某、孙某夫妇在母婴用品采购微信群里发现,多人询问口罩销售信息,于是,这对夫妇密谋后,竟然编造所谓“质优价廉,量大从优”的虚假出售口罩信息,在群里发布,短短一周时间诈骗3700多元.杞县公安局刑侦大队民警接到举报,迅速展开调查,于2月5日将贺某、孙某夫妇抓获.目前,贺某、孙某已被依法刑拘. 杞县某小区居民黄某某在业主群里谎称自己有一批口罩出售,先后诈骗他人1300元.杞县公安局城关派出所联合刑侦大队,于2月5日将黄某某抓获.目前,黄某某已被处以行政拘留和罚款的处罚,诈骗所得已全部退还受害人."抽取内容:"嫌疑人,案发城市,资损金额"输出:"贺某,孙某,杞县阳堌镇北村,杞县,3700多元,1300元"
  • 在小样本(few-shot)任务中,随着模型参数的增大,F1值也呈现出相应的增长。PP-UIE-14B在CMeEE数据集中少样本条件下的F1达到了0.588,优于其他规模较小的模型。PP-UIE通过在输入数据前增加对应输出格式和输出内容样例,提升模型的输出准确性和格式规范性。

输入:"肾上腺皮质又可分为3个区带:①球状带,位于肾上腺皮质最外层,占皮质的5%~10%,主要合成和分泌盐皮质激素;②束状带,位于中间层,约占皮质的75%,是储存胆固醇的重要场所,主要合成糖皮质激素,如皮质醇及少量去氧皮质酮(DOC)、脱氧皮质醇(S)和皮质酮(B);③网状带,位于肾上腺皮质最内层,主要合成肾上腺雄激素。"抽取内容:"身体部位"zero-shot输出:"肾上腺皮质,肾上腺皮质,肾上腺皮质"few-shot输出:"肾上腺皮质"

综上所述,模型的规模与其在零样本和小样本任务中的表现成正比,增大模型规模能够显著提高其性能。

PP-UIE系列 zero-shot和Few-Shot样例

同时我们和开源的信息抽取大模型YaYi-13B、DeepSeek-R1-Distill-Qwen-14B进行了效果对比测试,下表为不同数据集领域中zero-shot的效果对比

综合来看,PP-UIE-0.5B在零样本任务中的整体表现明显超过YaYi-UIE-13B 和DeepSeek-R1-Distill-Qwen-14B,说明PP-UIE-0.5B具有更强的零样本学习能力,且PP-UIE-0.5B可以大幅降低推理部署成本。

亮点二: 长跨度的信息抽取能力
当前,用户面临着前所未有的海量文本数据,其中不乏长篇文章、报告和文档。因此,用户对于长文信息抽取的必要性愈发凸显。在此背景下,PP-UIE系列模型凭借其长文能力,为用户提供长文信息抽取的高效工具。PP-UIE能跨越多个段落或句子识别关键信息,形成对文本内容的完整理解。
传统的UIE-Base模型在处理文本时存在局限性,只能支持 256个 Token长度的文本抽取,这大大限制了其在处理长文本时的应用。
而 PP-UIE 则突破了这一限制,可以支持 8192个 Token长度的文档级别的信息抽取,使得长文档信息抽取能力得到大幅提升。这一改进使得 PP-UIE 在处理复杂文本时更加高效、准确,具有广泛的应用前景。
输入:"2月5日,杞县公安局成功侦破两起以出售口罩为名实施诈骗的案件,3名嫌疑人被依法处理. 1月29日,杞县阳堌镇北村贺某、孙某夫妇在母婴用品采购微信群里发现,多人询问口罩销售信息,于是,这对夫妇密谋后,竟然编造所谓“质优价廉,量大从优”的虚假出售口罩信息,在群里发布,短短一周时间诈骗3700多元.杞县公安局刑侦大队民警接到举报,迅速展开调查,于2月5日将贺某、孙某夫妇抓获.目前,贺某、孙某已被依法刑拘. 杞县某小区居民黄某某在业主群里谎称自己有一批口罩出售,先后诈骗他人1300元.杞县公安局城关派出所联合刑侦大队,于2月5日将黄某某抓获.目前,黄某某已被处以行政拘留和罚款的处罚,诈骗所得已全部退还受害人."抽取内容:"嫌疑人,案发城市,资损金额"输出:"贺某,孙某,杞县阳堌镇北村,杞县,3700多元,1300元"
输入:"2023年10月18日,全球知名的投资银行摩根士丹利发布了其2023年第三季度财报,报告显示,该行在经历了全球经济增长放缓以及市场波动加剧的情况下,依然表现出了较强的盈利能力。根据报告,摩根士丹利第三季度净利润为72亿美元,同比增长了18%,创下历史新高。这一增长主要得益于其财富管理和投资管理部门的强劲表现,同时,投资银行业务也在全球并购(M&A)和首次公开募股(IPO)活跃的情况下有所增长。摩根士丹利的总营收为165亿美元,较去年同期的145亿美元增长了14%。该行财富管理部门贡献了超过一半的营收,达到了88亿美元,同比增长了12%。这表明,摩根士丹利在全球财富管理市场中保持了强大的竞争力,并进一步巩固了其在高净值客户市场的领先地位。该行在第三季度的管理资产总额也突破了5万亿美元,其中,大部分资产来自于北美和欧洲市场的高净值客户。对于投资银行业务,摩根士丹利表示,尽管全球经济环境充满不确定性,特别是利率上升和地缘政治风险加剧,但其并购和IPO业务仍然表现强劲。第三季度,摩根士丹利参与了多个重要的并购交易,包括全球最大的跨国收购案之一,交易总额接近500亿美元。此外,摩根士丹利还成功帮助多家科技公司进行了首次公开募股(IPO),其中一家公司在上市后的首日就实现了市值翻倍,为摩根士丹利的投资银行部门带来了可观的收入。尽管整体业绩强劲,但摩根士丹利的债券交易业务受到了较大的影响。随着美国联邦储备系统(美联储)持续加息,市场对债券的需求有所下降,摩根士丹利的债券交易收入同比下降了8%。这一情况反映出,随着全球利率水平的不断攀升,传统债券市场的投资吸引力逐渐减弱。摩根士丹利首席财务官(CFO)詹姆斯·戈尔顿(James Gorman)表示,尽管债券交易收入有所下降,但银行的整体业务结构仍然足够多元化,能够有效应对市场变化。在科技投资方面,摩根士丹利进一步加大了对人工智能(AI)和数字化金融的投资。摩根士丹利成立了专门的科技创新基金,计划在未来五年内投资超过50亿美元,重点支持全球范围内的科技创业公司,尤其是在人工智能、大数据、金融科技(FinTech)以及区块链技术领域的投资。通过这些投资,摩根士丹利希望能够引领金融行业的创新,同时为客户提供更为智能化和个性化的服务。可持续发展是摩根士丹利近期战略中的重要组成部分。该行计划在未来五年内将其全球投资组合中绿色债券的占比提升至30%,并且将在全球范围内加强其环境、社会和治理(ESG)投资的比例。摩根士丹利还宣布,将继续推动其绿色金融产品的创新,并加大对清洁能源项目、可再生能源以及碳排放减排技术的资金投入。通过这些举措,摩根士丹利期望在实现财务回报的同时,也能够为全球可持续发展做出贡献。随着市场竞争的加剧,摩根士丹利的竞争对手,如高盛集团、瑞士信贷和花旗银行等,也纷纷公布了第三季度的财报。高盛集团的财报显示,尽管其营收和净利润同比增长,但其投资银行部门的表现略逊色于摩根士丹利,特别是在并购和IPO市场上的活跃度不及预期。瑞士信贷则由于其在欧洲债券市场的敞口较大,受到较大影响,其第三季度的债券交易收入大幅下降。花旗银行则依旧保持了稳健的增长,主要得益于其在全球信用卡和零售银行业务方面的强劲表现。分析师认为,尽管全球经济面临着来自不同方面的挑战,摩根士丹利凭借其多元化的业务结构以及强大的财富管理和投资银行业务,能够在不确定的市场环境中保持良好的盈利增长。而高盛和瑞士信贷等竞争对手面临的压力也将促使他们加强对新兴市场和金融科技领域的投入,以便在未来的市场竞争中占据有利位置。摩根士丹利的首席执行官(CEO)詹姆斯·戈尔顿表示,尽管面临复杂的市场环境和不断上升的利率,但摩根士丹利将继续专注于客户需求,并通过持续的技术创新和战略性投资来保持其在金融行业的领先地位。公司预计,随着全球经济逐步适应高利率环境,摩根士丹利的业务将继续保持增长势头,尤其是在科技投资和绿色金融领域。展望未来,摩根士丹利计划继续加强其在亚洲市场的布局,特别是针对中国和印度等新兴市场的投资。随着这些地区经济的持续增长,摩根士丹利预计会迎来更多的投资机会。摩根士丹利还计划在未来几年内,通过并购和合资的方式,加强其在全球市场的业务网络,以便更好地服务于全球化的客户需求。此外,摩根士丹利还将进一步加强其数字化转型。为了适应现代金融行业日益变化的需求,该行正在加速推进金融科技(FinTech)领域的投资,并加强对数字化资产管理和智能投顾的探索。摩根士丹利还计划通过优化其移动金融应用程序和在线平台,进一步提升客户的数字化体验。摩根士丹利对未来的展望充满信心,尤其是在全球财富管理和资产管理领域的持续创新。公司表示,随着全球高净值客户需求的增加,摩根士丹利将继续提供量身定制的投资方案,并利用大数据和人工智能等技术为客户提供更加精准和个性化的投资建议。尽管市场环境充满挑战,但摩根士丹利依然保持了其在全球金融行业中的竞争力,预计其将在未来几年内继续增长,并推动行业的创新和发展。"抽取内容:"时间,公司,财务数据,业务"输出:"2023年10月18日,摩根士丹利,2023年第三季度,72亿美元,18%,165亿美元,145亿美元,14%,88亿美元,12%,全球财富管理市场,高净值客户市场,北美和欧洲市场,高净值客户,并购和IPO业务,美国联邦储备系统(美联储),债券交易业务,债券交易收入,同比下降了8%,人工智能(AI),数字化金融,科技创新基金,绿色债券,环境、社会和治理(ESG)投资,绿色金融产品,清洁能源项目,可再生能源,碳排放减排技术,高盛集团,瑞士信贷,花旗银行,全球信用卡和零售银行业务,亚洲市场,中国,印度,新兴市场,全球高净值客户,大数据,人工智能"

亮点三: 完备的大模型信息抽取定制能力

对于基础的信息抽取任务,PP-UIE系列模型可以直接上手,高效完成信息抽取。然而,面对更为复杂或特定领域的任务场景,我们强烈推荐利用轻定制功能(即仅需标注少量数据即可对模型进行微调)以进一步提高模型效果。PaddleNLP 为通用信息抽取大模型提供了完整的、可定制化的训练和推理全流程,使用户能够根据具体应用需求灵活调整模型,实现更高效、更精准的信息抽取任务。相较于LLama-Factory,PaddleNLP在训练效率上实现了1.8倍的提升(特别针对7B模型),进一步展示了其在大模型精调上的卓越性能。

1. 定制自己的训练数据集

步骤1:准备语料并标注

首先,需要准备相应的预标注文本,预标注文本中一行代表一条数据,并保存为txt以下格式
2022年语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办,已连续举办4届,成为全球最热门的中文NLP赛事之一。

我们推荐使用数据标注平台 doccano 进行数据标注,标注方法的详细介绍请参考 doccano数据标注指南 。标注完成后,在doccano平台上导出文件。

· doccano数据标注指南

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/application/doccano.md

步骤2:数据集格式转换

在doccano平台上导出的json格式的文件,通常不能直接 用来模型微调。PaddleNLP也打通了从标注到训练的通道,即doccano导出数据后可通过doccano.py脚本轻松将数据转换为输入模型时需要的形式,实现无缝衔接。

python doccano.py \    --doccano_file your/data/path \    --save_dir ./data \    --splits 0.8 0.2 0 \    --schema_lang ch

执行以上脚本进行数据转换,执行后会在./data目录下生成训练/验证/测试集文件。

2. 模型微调

推荐使用 大模型精调 对模型进行微调。只需输入模型、数据集等就可以高效快速地进行微调和模型压缩等任务,可以一键启动多卡训练、混合精度训练、梯度累积、断点重启、日志显示等功能,并且针对训练过程的通用训练配置做了封装,比如:优化器、学习率调度等。

使用下面的命令,使 用paddlenlp/PP-UIE-1.5B作为预训练模型 进行模型微调,将微调后的模型保存至指定路径中。

如果在GPU环境中使用,可以指定gpus参数进行多卡训练:

cd ../../# 返回llm目录python -u  -m paddle.distributed.launch --gpus "0,1" run_finetune.py ./config/qwen/sft_argument.json

sft_argument.json的参考配置如下:

{    "model_name_or_path": "paddlenlp/PP-UIE-1.5B",    "dataset_name_or_path": "./application/information_extraction/data",    "output_dir": "./checkpoints/ie_ckpts",    "per_device_train_batch_size": 1,    "gradient_accumulation_steps": 1,    "per_device_eval_batch_size": 1,    "eval_accumulation_steps":8,    "num_train_epochs": 3,    "learning_rate": 3e-05,    "warmup_steps": 30,    "logging_steps": 1,    "evaluation_strategy": "epoch",    "save_strategy": "epoch",    "src_length": 1024,    "max_length": 2048,    "fp16": true,    "fp16_opt_level": "O2",    "do_train": true,    "do_eval": true,    "disable_tqdm": true,    "load_best_model_at_end": true,    "eval_with_do_generation": false,    "metric_for_best_model": "accuracy",    "recompute": false,    "save_total_limit": 1,    "tensor_parallel_degree": 1,    "pipeline_parallel_degree": 1,    "sharding": "stage2",    "zero_padding": false,    "unified_checkpoint": true,    "use_flash_attention": false  }

3. 定制模型一键推理

PaddleNLP提供了两种可选的方式对模型进行推理:

(1)使用 PaddleNLP的高性能 predictor进行快速推理

  • 内置全环节融合算子策略

  • 支持 Weight Only INT8及 INT4推理,支持权重、激活、Cache KV 进行 INT8、FP8量化的推理







请到「今天看啥」查看全文