近年来,长文本大语言模型的研究取得了显著进展,模型的上下文窗口长度已经从最初的 8k 扩展到 128k 甚至 1M 个 tokens。然而,一个关键的问题仍然存在:这些模型是否真正理解了它们所处理的长文本? 换句话说,它们是否能够基于长文本中的信息进行深入的理解、学习和推理?这样的长文本复杂推理与问答场景其实相当普遍:例如,在长篇小说中,正确理解人物关系的微妙变化,抓住隐晦的线索,推断出人物行为背后的动机和情感变化;在法律文书的分析中,结合上下文推导出合规性问题、判断潜在的法律风险,并提出合理的法律建议;在学术论文中,整合多篇文献的结论,发现不同研究之间的矛盾与关联,从而提出新的研究方向或假设;在代码库中,根据长代码库的上下文以及跨文件之间的链接回答关于功能实现或代码错误的问题,等等。为了回答这个问题,并推动长文本模型在深度理解与推理上的进步,清华大学和智谱的研究团队推出了 LongBench 的第二代——LongBench v2,一个专为评估大模型在真实世界长文本多任务中的深度理解和推理能力而设计的基准测试。
我们相信 LongBench v2 将推动探索 scaling inference-time compute(例如 o1 模型)如何帮助解决长文本场景中的深度理解和推理问题。
https://longbench2.github.io论文链接:
https://arxiv.org/abs/2412.15204数据与代码链接:
https://github.com/THUDM/LongBench
LongBench v2 的特色
相比于现有的长文本理解基准测试,LongBench v2 具有以下几个显著特点:- 更长的文本长度:LongBench v2 的文本长度范围从 8k 到 2M 个词,其中大多数文本的长度小于 128k。
- 更高的难度:LongBench v2 包含了 503 个具有挑战性的四选一选择题——即使是使用文档内搜索工具的人类专家,也很难在短时间内正确回答这些问题。人类专家在 15 分钟的时间限制下,平均准确率仅为 53.7%(随机的准确率为 25%)。
- 更广泛的任务覆盖:LongBench v2 涵盖了六个主要的任务类别,包括单文档问答、多文档问答、长文本语境学习、长对话历史理解、代码仓库理解和长结构化数据理解,共计 20 个子任务,覆盖了各种现实场景。
- 更高的可靠性:为了保证评估的可靠性,LongBench v2 的所有问题都采用多项选择题的形式,并经过了严格的人工标注和审核流程,确保数据的高质量。
数据收集流程
为了确保数据的质量和难度,LongBench v2 采用了严格的数据收集流程,主要包括以下几个步骤:文档收集:招募 97 名来自顶尖大学、具有不同学术背景和年级的标注员,收集他们个人阅读或使用过的长文档,例如研究论文、教科书、小说等。
数据标注:标注员根据收集到的文档,提出一个多项选择题,并提供四个选项、一个正确答案和相应的证据。
自动审核:使用三个具有 128k 上下文窗口的大模型(GPT-4o-mini、GLM-4-Air 和 GLM-4-Flash)对标注的数据进行自动审核,如果三个模型都能正确回答问题,则认为该问题过于简单,需要重新标注。
人工审核:通过自动审核的数据会被分配给 24 位专业的人类专家进行人工审核,他们会尝试回答问题,并判断问题是否合适、答案是否正确。如果专家在 3 分钟内能够正确回答问题,则认为该问题过于简单,需要重新标注。此外,如果专家认为问题本身不符合要求或答案有误,也会退回重新标注。
数据修订:未通过审核的数据会被退回给标注员进行修订,直到通过所有审核步骤。
数据收集总共花费约 10 万元,并持续了近三个月。研究团队对其中 70 条数据进行了抽查,发现 68 / 70 条数据答案完全准确,67 / 70 条数据是 Google-proofed(即 15 分钟内无法通过互联网检索得到答案)。
数据统计
下表展示了 LongBench v2 中的 6 大类任务和 20 小类任务,以及各任务子类的数据量、数据长度中位数、人类专家回答正确率和回答时间中位数。数据根据难度分为两类:如果人类专家无法在 10 分钟内正确回答,且在自动审核阶段不超过 1 / 3 的模型能够正确回答,则该数据归类为 “hard”,该类数据共有 311 条;其余 192 条数据归为 “easy”。根据文本长度,数据被分为 “short”(<32k)、“medium”(32k-128k)和“long”(>128k)三类,分别含有 180、210 和 108 条数据。
评估结果
研究团队使用 LongBench v2 评估了 10 个开源 LLMs 和 6 个闭源 LLMs。评估中考虑两种场景:zero-shot 与 zero-shot+CoT(即先让模型输出 chain-of-thought,再让模型输出所选答案)。灰色的单元格中展示的是在 zero-shot+CoT 下的评测结果。
评估结果表明,LongBench v2 对当前的长文本大模型来说是一个巨大的挑战,即使是表现最好的模型,在直接输出答案的情况下,也仅取得了 50.1% 的准确率,而引入了更长推理链的 o1-preview 模型则取得了 57.7% 的准确率,超过了人类专家 4%。
1. Scaling Inference-Time Compute 的重要性评估结果中一个非常重要的发现是,通过扩展推理时间计算(Scaling Inference-Time Compute),可以显著提升模型在 LongBench v2 上的表现。例如,o1-preview 模型相比于 GPT-4o,通过集成更多推理步骤,在多文档问答、长文本语境学习和代码仓库理解等任务上取得了显著的提升。这表明,LongBench v2 对当前模型的推理能力提出了更高的要求,而增加推理时间的思考和推理似乎是解决此类长文本推理挑战的一个自然且关键的步骤。
实验发现,Qwen2.5 和 GLM-4-Plus 两个模型在检索块数量超过一定阈值(32k tokens,约 64 个 512 长度的块)后,性能并没有显著提升,甚至出现下降的情况。这表明简单地增加检索到的信息量并不总能带来性能的提升。相比之下,GPT-4o 能够有效利用更长的检索上下文,其最佳 RAG 性能出现在 128k 检索长度时。总结来说,在面对需要深度理解和推理的长文本问答任务时,RAG的作用有限,特别是当检索块数量超过一定阈值后。模型需要具备更强的推理能力,而不仅仅是依赖检索到的信息,才能有效处理 LongBench v2 中的挑战性问题。这也暗示了未来的研究方向也需要更多地关注如何提升模型自身的长文本理解和推理能力,而不仅仅是依赖外部检索。我们期待 LongBench v2 能够推动长文本理解和推理技术的发展。欢迎阅读我们的论文,使用我们的数据并了解更多!
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」