英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

SegmentFault思否 · 公众号 · · 2024-06-05 13:34

正文

无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现，包括 GPT-4 在内的 10 个大模型，生成达到 128k 甚至 1M 上下文长度的都有。

但一番考验下来，在新指标“有效上下文”上缩水严重，能达到 32K 的都不多。

新基准名为 RULER ，包含 检索、多跳追踪、聚合、问答 四大类共 13 项任务。RULER 定义了“有效上下文长度”，即模型能保持与 Llama-7B 基线在 4K 长度下同等性能的最大长度。

这项研究被学者评价为“非常有洞察力”。

不少网友看到这项新研究后，也非常想看到上下文长度王者玩家 Claude 和 Gemini 的挑战结果。（论文中并未覆盖）

一起来看英伟达是如何定义“有效上下文”指标的。

测试任务更多、更难

要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的 ZeroSCROLLS、L-Eval、LongBench、InfiniteBench 等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。

所以英伟达提出了 RULER 方法，一句话概括就是 “确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力” 。

RULER 的评测数据减少了对“参数化知识”的依赖，也就是大模型在训练过程中已经编码到自身参数里的知识。

具体来说，RULER 基准扩展了流行的“大海捞针”测试，新增四大类任务。

检索方面，从大海捞针标准的单针检索任务出发，又加入了如下新类型：

除了升级版检索，RULER 还增加了 多跳追踪 （Multi-hop Tracing）挑战。

具体来说，研究人员提出了 变量追踪 （VT），模拟了指代消解（coreference resolution）的最小任务，要求模型追踪文本中变量的赋值链，即使这些赋值在文本中是非连续的。

挑战第三关是聚合（Aggregation），包括：

常见词汇提取 （Common Words Extraction, CWE）：模型需要从文本中提取出现次数最多的常见词汇。
频繁词汇提取 （Frequent Words Extraction, FWE）：与 CWE 类似，但是词汇的出现频率是根据其在词汇表中的排名和 Zeta 分布参数 α 来确定的。

挑战第四关是 问答任务 （QA），在现有阅读理解数据集（如SQuAD）的基础上，插入大量干扰段落，考查长序列 QA 能力。

各模型上下文实际有多长？

实验阶段，如开头所述，研究人员评测了 10 个声称支持长上下文的语言模型，包括 GPT-4，以及9个开源模型开源模型 Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

这些模型参数规模范围从 6B到采用MoE架构的8x7B 不等，最大上下文长度从 32K到1M 不等。

在 RULER 基准测试中，对每个模型评测了 13 个不同的任务，覆盖 4 个任务类别，难度简单到复杂的都有。对每项任务，生成 500 个测试样例，输入长度从 4K-128K 共 6 个等级（4K、8K、16K、32K、64K、128K）。

为了防止模型拒绝回答问题，输入被附加了 answer prefix，并基于 recall-based 准确性来检查目标输出的存在。

研究人员还定义了“有效上下文长度”指标，即模型在该长度下能保持与基线 Llama-7B 在 4K 长度时的同等性能水平。

为了更细致的模型比较，使用了加权平均分数（Weighted Average, wAvg）作为综合指标，对不同长度下的性能进行加权平均。采用了两种加权方案：