2022年9月18日,来自哈工大社会计算与信息检索研究中心(HIT-SCIR)的“TIBK-12”小队以75.1的成绩夺得全国信息检索挑战杯-基于金融财报中的混合表格与文本数据的问答赛道冠军,高出第二名约两个百分点(图1)。团队成员包括窦隆绪、王丁子睿,指导教师为车万翔教授。
图1 比赛最终排行榜
比赛介绍
全国信息检索挑战杯(CCIR Cup)是由全国信息检索学术会议(CCIR)发起的技术评测比赛。全国信息检索学术会议(CCIR)由中国中文信息学会主办,一路伴随着中国互联网产业的成长,迄今已成功举办二十八届,是信息检索领域的旗舰会议。CCIR旨在推动信息检索领域的发展,满足人类在互联网上快速准确地获取信息与知识的需求,支撑国家战略决策,推动互联网和人工智能领域的发展。CCIR从2009年起,开始组织系列评测比赛,致力于围绕实际问题探索解决方案,并为信息检索领域科研人员提供必需的研究数据支持。今年比赛的赛道二吸引了来自众多高校、科研院所与科技企业的174支队伍报名参加,其中14支队伍成功提交结果。
任务介绍
在金融相关领域,财报中一般会包含大量的半结构化的表格和非结构化的文本数据。为了能够从金融财报中筛选出有价值的信息,金融行业从业人员往往需要花费大量的时间来阅读和理解这些数据。为了减轻这一环节的工作量,我们希望构建智能的Hybrid QA模型,以辅助金融从业者更快的理解混合有表格和文本内容的金融财报数据。
图2 比赛数据示例
本次比赛的数据基于TAT-QA与TAT-HQA两个数据集构建,该任务给定从金融财报中筛选的一个半结构化的表格和几个与该表格相关的段落(一般不少于2个),当收到一个与之相关的自然语言形式的问题后,要求模型能够根据表格和段落给出该问题的相应的答案(图2)。
在该任务中,半结构化的表格存储为一个二维数组,与该表格相关的文本段落以及问题都以字符串形式存储。问题分为两种类型:事实类的问题和假设性的问题。其中,事实类的问题是可以基于给定的表格和段落来回答的,如:“What is the net profit in 2019?”。而假设性的问题是通过在事实类的问题中添加一个假设而来,如:“What would the net profit in 2019 be if the revenue in 2019 were $38,473 instead?”。
夺冠系统
参考目前主流的问答系统,我们将整个方案分为三个步骤:
(a)文本检索:由于单个问题对应的表格与文本信息量较大,无法一次性完全输入到模型中,我们采用检索模型来对文本与问题的相关性进行排序。为了减少冗余信息,我们首先会先对文本进行分句,然后采用TF-IDF、稠密文本检索、BERT分类模型三种方法计算每个句子和问题的相关性,然后使用逻辑回归来对三个模型进行集成。最终,我们得到的EM@6(前6个句子中包含所有所需句子)达到了96.3%。
(b)答案生成:模型输入为用户问题、检索文本、表格和问题是否为假设性问题,输出为问题的答案信息。这部分我们采用预训练语言模型BART作为模型结构,将HybridQA看作一种特殊的翻译任务,使用Seq2Seq的方法进行了模型训练。由于实验中模型的数值计算能力较差,因此对于需要计算得到的答案,我们让模型首先生成计算公式,然后通过计算脚本得到最终的结果。此外,为了提高模型解决假设问题的能力,我们让答案生成模型额外输出了假设相关的数值,使得模型在假设问题上的性能提高三到四个点。最终,该模型在我们划分的验证集上的准确率达到了73.6%。
(c)数据合成:在实验中我们发现,线性化的表格会让模型难以理解表格的位置信息。为了解决这一问题,我们采用了数据合成的方法,具体分为两类:一是,问题包括单元格的行名和列名,答案为相应的单元格值;二是,问题包括执行的操作(类似于SQL中的聚集函数)和列名,答案为相应的计算公式(图3)。两种方法共合成了53k条数据,使得模型的准确率提升了一个百分点。 图3 数据合成示例
为了增强模型的鲁棒性,我们对采用不同表格线性化方式、不同文本粒度、不同数据合成方法的模型进行集成,按照模型在验证集上的准确率作为权重对每个问题的答案进行投票,选取票权最高的模型作为最终答案。通过模型集成,模型取得了在验证集上78.6%,最终测试集上75.1%的成绩。
创新性
首先,我们采用了Seq2Seq方法来求解该问题,可以有效利用目前大规模预训练模型的能力,因为翻译任务和预训练阶段的语言模型生成任务的目标更为接近,更能有效挖掘模型潜力;此外,为了改进模型对表格位置信息的理解能力,降低表格线性化带来的位置信息损失,我们设计了数据合成方法,同时实验结果验证了数据合成方法的有效性;最后,由于该任务包含假设信息,为了模拟人解决这一问题的过程,我们让模型输出了假设相关数值,使其学习到假设问题的求解分为得到原答案和对原答案进行修改两步。
以中文技术,助民族复兴