专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

NAACL'24｜探索表格转文本方法对使用领域混合数据增强基于大语言模型的问答系统的影响

极市平台 · 公众号 · · 2024-05-29 22:38

正文

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

本文研究了不同的表格到文本方法对使用混合数据构建的基于LLM问答系统的影响。作者仔细比较了四种代表性方法：Markdown格式化、模板序列化、基于TPLM的方法和基于LLM的方法。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

作者：闵德海（东南大学）、胡楠（东南大学）、金日辉（东南大学）、林诺（东南大学）、陈矫彦（曼彻斯特大学）、陈永锐（东南大学）、李煜（东南大学）、漆桂林（东南大学）、李昀（华为）、李拟珺（华为）、王乾人（华为）

论文录用：NAACL-2024 Industry Track Paper (Oral)

论文地址： https://arxiv.org/abs/2402.12869

摘要

使用特定领域数据增强大型语言模型（LLM）进行问答（QA）已引起社区的广泛研究和关注。然而，领域数据通常以混合格式存在，包括文本和半结构化表格，这为信息的无缝整合带来了挑战。表格转文本生成是一种通过促进混合数据转换为统一文本格式语料库的有前景的解决方案。尽管自然语言处理（NLP）社区已广泛研究了这种技术，但目前仍没有关于不同表格转文本策略生成的语料库如何影响QA系统性能的比较分析。在本文中，我们分两步解决这一研究空白。首先，我们创新性地将表格转文本生成集成到使用混合领域数据增强基于LLM的QA系统的框架中。然后，我们利用这一框架在真实的工业数据中对两种类型的QA系统（DSFT和RAG框架）进行广泛的实验，使用四种代表性方法：Markdown格式、模板序列化、基于TPLM的方法和基于LLM的方法。基于实验结果，我们得出了一些经验性发现，并探索了某些方法成功背后的潜在原因。我们希望这项工作的发现能为学术界和工业界在开发稳健的QA系统方面提供宝贵的参考。

1、引言

在特定领域的问答（QA）中增强大型语言模型（LLM）的性能一直是研究的焦点，主要采用两种关键方法[1][2]：领域特定的微调（DSFT），即在特定领域语料上训练LLM[3][4]；以及检索增强生成（RAG），利用特定领域语料作为外部知识库[5]。这些方法利用LLM固有的文本处理优势，在仅文本的场景中得到了广泛应用，取得了显著的改进。

然而，许多领域的现实世界数据通常以混合格式存在，不仅包括文本，还包括大量的半结构化表格，常见于科学文献和医疗报告等场景[6]。这些表格经常与文本一起出现在同一文档中，提供语义上的补充或互补信息，这对于全面理解内容至关重要。在探索利用混合数据来增强LLM性能的潜力时，有效整合这些数据，确保文本和表格的共存是至关重要的。目前处理文本和表格异质性的方法存在显著缺陷：1) 直接通过行与行之间的单元格连接来展平表格，不仅会导致原始表格中嵌入的结构信息丢失，还会切断单元格之间的信息链接[7][8]；2) 将文本和表格分别映射到不同的向量空间，然后再整合它们，这不仅增加了复杂性，还破坏了两种数据类型之间的语义联系[9][10]。

表格转文本生成[11][12]是一种有前景的解决方案，旨在生成忠实描述所提供表格信息的自然语言表述。通过这种方式，我们可以将混合数据转换为更适合LLM使用的统一自然语言表达，同时保留表格中的重要信息和数据之间的语义联系。尽管表格转文本生成已被NLP社区广泛研究，但目前还没有比较分析不同表格转文本方法生成的语料如何影响特定领域QA系统的性能。

在这项工作中，我们通过两个步骤解决这一研究空白。首先，我们创新性地将表格转文本生成整合到以混合领域数据增强基于LLM的QA系统的框架中。然后，我们利用这一框架对两种类型的QA系统（DSFT和RAG范式）进行广泛的实验，采用四种代表性的表格转文本方法。我们选择以下四种策略：1) Markdown}格式；2)模板序列化；3) TPLM-based方法；4) LLM-based方法。这些策略在复杂性和底层技术方面各不相同。Markdown和模板序列化提供简单性，而基于TPLM和基于LLM的方法利用先进语言模型的能力生成更细腻的文本。

在实施方面，我们收集了一个名为ICT-DATA的真实混合数据集，通过从关于信息和通信技术（ICT）产品的众多文档中提取文本和表格。重要的是，表格中包含的文本约占ICT-DATA总内容的18％（基于词数统计）。我们使用不同的表格转文本方法处理ICT-DATA中的表格，获得不同的ICT语料。然后利用这些语料构建QA系统。此外，我们创建了一个名为ICTQA的基准数据集，该数据集包含基于ICT-DATA知识的QA对。这个数据集特别适合评估增强的LLM，因为它包含了一些通用LLM培训阶段未涵盖的行业特定知识。

据我们所知，我们的研究是第一个全面比较不同表格转文本策略在基于混合领域数据增强的LLM QA系统上的表现。我们的主要发现如下：

1.表格转文本方法显著影响QA系统的性能，相对得分差异在人类评估中从2.8％到9.0％不等，在GPT-4评估中从4.8％到16％不等。在两个系统中，选择合适的方法可以带来相当的好处。
2.在DSFT范式中，基于LLM和基于TPLM的方法始终优于其他方法，显示出它们的优越性。在RAG范式中，尽管基于LLM的方法仍表现出色，Markdown显示出意外的有效性。
3.这些方法产生的领域特定术语和动词的不同频率，以及生成的文本块中语义表达的不同质量，似乎是影响两个系统性能差异的关键因素。

2、表格转文本

表1提供了这些方法在资源需求、处理速度和文本多样性方面的比较分析。

Markdown格式：一种直接使用Markdown格式表示表格的方法。它不涉及模型训练，可以通过脚本快速处理，无需人工干预。
模板序列化：此方法使用一组基于表格特征设计的模板进行文本化。与Markdown方法相比，由于使用了多个预先准备好的模板来适应不同类型的表格，它在生成的文本中实现了略高的多样性，这需要一些人工参与。
基于TPLM的方法：该方法涉及对传统预训练语言模型（TPLM），如T5和BART，在特定的表格转文本生成任务数据集上进行微调。在本文中，我们使用了MVP模型，该模型首先在众多自然语言生成数据集上预训练BART模型，然后在各种跨领域表格转文本数据集上进行微调。它允许通过微调调整输出，提供更高的灵
基于LLM的方法：最近使用LLM进行此任务的工作引起了显著关注。令人印象深刻的是，[13]表明GPT-*模型通常优于表现最佳的微调模型。我们参考他们的发现，并在我们的工作中使用ChatGPT和one-shot设置。与基于TPLM的方法类似，这种方法可以使用上下文学习对输出进行定制。此外，使用某些专有LLM的API可能存在领域数据泄露的风险。

如图1所示，我们将四种典型的表格文本化方法应用于ICT-DATA数据集，形成了四个不同的语料库。

3、基于领域语料库构建基于LLM的QA系统

我们分别介绍两个基于LLM的QA系统如何使用这些语料库。它们的框架概览如图2所示。

DSFT领域特定微调

我们首先在ICT语料上预训练LLM，使模型逐步学习领域知识。随后，我们通过指令微调将模型适应QA任务。

RAG检索增强生成

在这个范式中，我们采用LangChain 框架，结合Dense Passage Retriever （DPR），该方法包括多步骤过程：1) 将大型语料库分割成较小的块；2) 通过编码器将每个文本块编码成一个向量，这个向量捕捉其语义本质；3) 为这些向量建立一个索引向量存储库，优化存储以实现高效检索；4) 对于每个查询，检索最相关的文本块；5) 使用查询和检索到的信息来生成最终答案。

4、数据集与评估指标

评估数据集

ICT-DATA： 我们基于170份与ICT产品相关的英文技术文件收集了ICT-DATA。每份产品文件包含表格和文本，其内容包括产品描述、配置指南、术语和定义等。总存储大小约为6GB。此外，表格数据中的单词数约占数据集总单词数的18%。

ICTQA： 我们创建ICTQA数据集来评估领域QA系统的性能，通过从实际ICT产品技术支持QA平台收集9,000个带有长答案的问题。我们手动选择500个问题作为测试集，其答案涉及表格和文本两方面的知识。其余的QA对被用作DSFT范例中指令微调阶段的训练集。

评估指标

自动化评估指标： 鉴于传统的基于词汇重叠的指标（如BLEU）不适用于评估LLM生成的长篇回答的质量，我们使用GPT-4在one-shot设置下作为评估器，根据响应与标准答案的相似度进行评分。分数范围是从0到5离散值；0表示不连贯的输出，例如重复的字段或回复“我不知道答案”，1表示与黄金答案相似度最低，5表示准确的答案。

人工评估： 本文还使用了三名具有领域知识的评估人员根据模型相应的有用性和与标准答案的相似性对答案进行评分，使用与GPT-4相同的评分标准，范围从0到5。

5、实验设置

在DSFT范式中： 我们使用Meta的OPT（1.3B到13B）和Llama2-base（7B，13B）作为基础模型。为了减少训练成本，我们采用QLoRA策略进行预训练和指令微调。

在RAG范式中： 我们使用Llama2-chat模型（7B、13B和70B）和GPT3.5-turbo进行推理。我们将语料库分成较小的块，确保句子的完整性并将其长度保持在3000个字符以下。随后，使用BGE嵌入模型将文本块向量化。我们利用FAISS库根据相似性检索前3个相关文本块的向量。将这些块与相应的问题一起输入到LLM中，通过LangChain中的RAG-Chain进行回答。

公平比较： 为了保持一致性和控制变量，所有模型都在四个不同的语料库上以相同的设置进行训练或使用。详细的训练参数和GPU成本可以在原文中找到。

6、实验结果

6.1 Overall Results

表2和表3分别显示了DSFT范式和RAG范式QA系统在ICTQA测试集上不同QA系统设置的平均分数。我们可以看到，由不同表格转文本方法生成的语料库增强的两种类型QA系统在性能上存在显著差异。它们的相对得分差异在人工评估中范围从2.8％到9.0％，在GPT-4评估中从4.8％到16％。

从表2中，我们注意到在DSFT范式中，使用语言模型进行表格转文本生成的TPLM-based和LLM-based方法在不同模型中表现良好。特别是，LLM-based方法在许多模型中显示出最佳性能。

另一方面，在表3中RAG范式提供了不同的观察结果。虽然LLM-based方法继续展示出卓越的性能，但Markdown格式在RAG范式中相比于DSFT显示出显著且意外的改进性能，甚至在一些模型中表现最好。

为了进一步说明这些发现，我们在图3中展示了一些QA系统得分的比较结果。我们可以清楚地观察到平均得分较高的方法也有更高的概率在每个问题上获得更好的得分。这些观察结果强调了在构建领域特定QA系统时选择适当的表格数据处理方法的必要性。

6.2 RQ：它们的性能差异的潜在原因是什么？

由于DSFT和RAG系统以不同方式利用领域语料库，我们将分别讨论它们。

对于DSFT范式

受到[14][15][16]的研究启发，这些研究表明LLMs回答事实问题的能力与它们预训练语料中显著实体的频率之间存在相关性和因果关系，我们也观察到不同的表格转文本方法在描述表格时对领域动词的偏好不一致。遵循 [17][18] 的方法，我们从ICTQA测试集中的QA对中提取领域术语集和相关动词集。然后，我们计算这些术语和动词在不同表格转文本方法生成的语料中的绝对频率。

在表4中，我们可以清楚地看到不同语料库中这些频率的显著差异。例如，基于LLM的方法显示的术语频率是模板方法的两倍以上，动词频率是四倍。这是因为基于LLM的方法在描述表格时倾向于用领域实体补充主题，并在动词上展示更大的多样性。相比之下，模板方法使用更多的代词，如“It”，和单调的谓词（通常是“be”动词）。通过将这些频率排名与表2中显示的系统QA性能进行比较，我们可以观察到它们之间的正相关性：频率较高的方法，特别是TPLM和基于LLM的方法，对应于DSFT系统中更优越的QA能力。

对于RAG范式

在相同的LLM作为Reader的设置下，语义空间的检索精确度对RAG性能至关重要[19]。检索过程涉及选择与查询向量相似度得分最高的向量化块。

为了研究不同方法对检索效果的影响，我们使用t-SNE在图4中可视化查询及相关块在语义空间中的聚类情况。可以清晰地看到表现良好的基于LLM和Markdown方法生成的文本块在语义空间中更接近查询向量。这使得与问题相关的块更有可能被检索到，从而提高系统的性能。这表明，在使用DPR方法的RAG框架中，这些方法生成的文本具有更友好的检索语义表示和查询与文档之间更好的对齐。

6.3: 关于选择表格转文本方法的实用建议

基于上面的结果，我们可以知道在两种框架中，基于LLM的策略（例如使用one-shot设置的ChatGPT）表现出色且可靠。如果基于LLM方法的成本或者数据安全担忧而不可接受，那么基于TPLM的策略（即选择一个良好微调的表格转文本模型）在DSFT范式中是一个很好的替代方案。在RAG范式中，简单易用的Markdown策略也是一个可行的替代选项。

7、总结

本文研究了不同的表格到文本方法对使用混合数据构建的基于LLM问答系统的影响。具体来说，我们仔细比较了四种代表性方法：Markdown格式化、模板序列化、基于TPLM的方法和基于LLM的方法。通过实验，我们展示了在DSFT框架中基于LLM和基于TPLM的方法的优越性，以及在RAG框架中基于LLM和Markdown方法的卓越性。一个关键发现是这些方法产生的领域特定术语和动词的使用频率不同，以及生成的文本块中语义表示的质量差异，这些似乎是影响两种系统性能差异的关键因素。这些见解不仅揭示了表格到文本生成方法的细微差别，而且对于构建强壮的LLM问答系统有着深远的影响。此外，本文的研究为根据特定需求开发领域特定的问答系统提供了实际指导。

参考文献：

[1] Li Y, Cui H, Zhang X, Zhao T, Panalkar A, Cheng W, Wang H, Liu Y, Chen Z, Chen H, White C, Gu Q, Pei J, Zhao L. Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey. ArXiv:2305.18703 [cs], 2023.

[2] Wang C, Liu X, Yue Y, Tang X, Zhang T, Jiayang C, Yao Y, Gao W, Hu X, Qi Z, Wang Y, Yang L, Wang J, Xie X, Zhang Z, Zhang Y. Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity. ArXiv:2310.07521 [cs], 2023a.

[3] Gururangan S, Marasović A, Swayamdipta S, Lo K, Beltagy I, Downey D, Smith NA. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8342–8360, Online. Association for Computational Linguistics, 2020.

[4] Wu C, Lin W, Zhang X, Zhang Y, Wang Y, Xie W. PMC-LLaMA: Towards Building Open-source Language Models for Medicine. ArXiv:2304.14454 [cs], 2023.

[5] Lewis P, Perez E, Piktus A, Petroni F, Karpukhin V, Goyal N, Küttler H, Lewis M, Yih WT, Rocktäschel T, Riedel S, Kiela D. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Advances in Neural Information Processing Systems, volume 33, pages 9459-9474. Curran Associates, Inc., 2020b.

[6] Chen W, Zha H, Chen Z, Xiong W, Wang H, Wang WY. Hybridqa: A dataset of multi-hop question answering over tabular and textual data. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1026–1036, 2020c.

[7] Sui Y, Zhou M, Zhou M, Han S, Zhang D. GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study. ArXiv:2305.13062 [cs], version: 3, 2023.

[8] Xie T, Wu CH, Shi P, Zhong R, Scholak T, Yasunaga M, Wu CS, Zhong M, Yin P, Wang SI, Zhong V, Wang B, Li C, Boyle C, Ni A, Yao Z, Radev D, Xiong C, Kong L, Zhang R, Smith NA, Zettlemoyer L, Yu T. UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 6026-631, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics, 2022.

[9] Li AH, Ng P, Xu P, Zhu H, Wang Z, Xiang B. Dual reader-parser on hybrid textual and tabular evidence for open domain question answering. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4078–4088, 2021.

[10] Huang J, Zhong W, Liu Q, Gong M, Jiang D, Duan N. Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 4117–4129, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics, 2022.

[11] Luo Y, Lu M, Liu G, Wang S. Few-shot Table-to-text Generation with Prefix-Controlled Generator. In Proceedings of the 29th International Conference on Computational Linguistics, pages 6493–6504, Gyeongju, Republic of Korea. International Committee on Computational Linguistics, 2022.

[12] Cheng Z, Dong H, Wang Z, Jia R, Guo J, Gao Y, Han S, Lou JG, Zhang D. HiTab: A hierarchical table dataset for question answering and natural language generation. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1094–1110, Dublin, Ireland. Association for Computational Linguistics, 2022.

[13] Zhao Y, Zhang H, Si S, Nan L, Tang X, Cohan A. Investigating table-to-text generation capabilities of large language models in real-world information seeking scenarios. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 160–175, Singapore. Association for Computational Linguistics, 2023b.

[14] Biderman S, Schoelkopf H, Anthony QG, Bradley H, O’Brien K, Hallahan E, Khan MA, Purohit S, Prashanth US, Raff E, Skowron A, Sutawika L, Van Der Wal O. Pythia: A suite for analyzing large language models across training and scaling. In Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pages 2397–2430. PMLR, 2023.