西风 发自 凹非寺
量子位 | 公众号 QbitAI
无情戳穿“长上下文”大模型的虚标现象——
英伟达新研究发现,包括 GPT-4 在内的 10 个大模型,生成达到 128k 甚至 1M 上下文长度的都有。
但一番考验下来,在新指标“有效上下文”上缩水严重,能达到 32K 的都不多。
新基准名为
RULER
,包含
检索、多跳追踪、聚合、问答
四大类共 13 项任务。RULER 定义了“有效上下文长度”,即模型能保持与 Llama-7B 基线在 4K 长度下同等性能的最大长度。
不少网友看到这项新研究后,也非常想看到上下文长度王者玩家 Claude 和 Gemini 的挑战结果。
(论文中并未覆盖)
要评测大模型的长文本理解能力,得先选个好标准,现圈内流行的 ZeroSCROLLS、L-Eval、LongBench、InfiniteBench 等,要么仅评估了模型检索能力,要么受限于先验知识的干扰。
所以英伟达提出了 RULER 方法,一句话概括就是
“确保评估侧重于模型处理和理解长上下文的能力,而不是从训练数据中回忆信息的能力”
。
RULER 的评测数据减少了对“参数化知识”的依赖,也就是大模型在训练过程中已经编码到自身参数里的知识。
具体来说,RULER 基准扩展了流行的“大海捞针”测试,新增四大类任务。
检索
方面,从大海捞针标准的单针检索任务出发,又加入了如下新类型:
-
多针检索
(Multi-keys NIAH, MK-NIAH)
:上下文中插入多个干扰针,模型需检索指定的那一个
-
多值检索
(Multi-values NIAH, MV-NIAH)
:一个键(key)对应多个值(values),模型需要检索出与特定键关联的所有值。
-
多查询检索
(Multi-queries NIAH, MQ-NIAH)
:模型需根据多个查询在文本中检索出相应的多个针。
除了升级版检索,RULER 还增加了
多跳追踪
(Multi-hop Tracing)
挑战。
具体来说,研究人员提出了
变量追踪
(VT)
,模拟了指代消解
(coreference resolution)
的最小任务,要求模型追踪文本中变量的赋值链,即使这些赋值在文本中是非连续的。
挑战第三关是
聚合
(Aggregation)
,包括:
-
常见词汇提取
(Common Words Extraction,
CWE)
:模型需要从文本中提取出现次数最多的常见词汇。
-
频繁词汇提取
(Frequent Words Extraction, FWE)
:与 CWE 类似,但是词汇的出现频率是根据其在词汇表中的排名和 Zeta 分布参数 α 来确定的。
挑战第四关是
问答任务
(QA)
,在现有阅读理解数据集
(如SQuAD)
的基础上,插入大量干扰段落,考查长序列 QA 能力。
实验阶段,如开头所述,研究人员评测了 10 个声称支持长上下文的语言模型,包括 GPT-4,以及9个开源模型开源模型 Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。
这些模型参数规模范围从
6B到采用MoE架构的8x7B
不等,最大上下文长度从
32K到1M
不等。
在 RULER 基准测试中,对每个模型评测了 13 个不同的任务,覆盖 4 个任务类别,难度简单到复杂的都有。对每项任务,生成 500 个测试样例,输入长度从 4K-128K 共 6 个等级
(4K、8K、16K、32K、64K、128K)
。
为了防止模型拒绝回答问题,输入被附加了 answer prefix,并基于 recall-based 准确性来检查目标输出的存在。
研究人员还定义了“有效上下文长度”指标,即模型在该长度下能保持与基线 Llama-7B 在 4K 长度时的同等性能水平。
为了更细致的模型比较,使用了加权平均分数
(Weighted Average, wAvg)
作为综合指标,对不同长度下的性能进行加权平均。采用了两种加权方案:
-
wAvg(inc):权重随长度线性增加,模拟以长序列为主的应用场景