长文本(Long-context)大模型性能的优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。
然而,
现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能
,导致 SFT 模型存在固有的缺陷,如幻觉和无法充分利用上下文信息等。
原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐,但
在长上下文场景下如何获得可靠的奖励信号,仍是一个未被探索的问题
。
如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——
他们提出了一个名为
LongReward
的新方法,旨在
利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的性能,从而有效地改进 SFT 模型
。
https://arxiv.org/abs/2410.21252
https://github.com/THUDM/LongReward
https://huggingface.co/datasets/THUDM/LongReward-10k
研究表明,LongReward 不仅可以显著提高模型的长文本性能,还能够增强它们遵循简短指令的能力。另外,带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用,而不会影响任何一方的性能。
研究方法
LongReward 通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。
具体而言,
LongReward 利用一个现有的大模型(M_judge,该研究中使用的 GLM-4)
从四个人类重视的价值维度——有用性、逻辑性、忠实性和完整性——为长文本模型的回复提供奖励
。这些维度覆盖了模型输出的各个关键方面,确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10,最终奖励是这些分数的平均值。
图|LongReward 图示
1.帮助性(Helpfulness)
2.逻辑性(Logicality)
3.忠实性(Faithfulness)
4.完整性(Completeness)
-
评估模型回答是否涵盖了上下文中与问题相关的所有关键点,是否提供了足够的信息和细节来满足用户的需求。
-
首先将上下文分解为粗粒度的块,并让 M_judge 从每个块中提取与问题相关的信息。
-
然后将所有提取的相关信息拼接起来,再利用 M_judge 评估模型回复的完整性,即是否涵盖了所有重要信息。
在评分机制基础上,LongReward 与离线强化学习(RL)算法 DPO 结合,形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出,使其更符合偏好要求。
具体来说,通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分,研究团队可以自动构建 DPO 所需的偏好数据集。
实验结果
他们的实验表明,
LongReward 不仅显著提高了模型的长文本性能,还增强了它们遵循简短指令的能力
。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示,使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%,超过了所有基线方法。
图|使用 GPT-4o 对长文本基准进行自动评估的结果
图|以 GPT-4o-mini 为评判标准,随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题,得出 SFT 和 dLongReward+DPO 版本的事实分数。
图|在一组 464 个人工标注的长文本偏好对中,将不同评分方法与人类偏好进行比对,其中的提问和回答分别来自 LongBench-Chat 和 Llama-3.1-8B 的 SFT 检查点。
此外,人类评估进一步验证了 LongReward 与人类偏好的良好一致性,并从所有维度(即有用性、逻辑性、忠实性和完整性)帮助改善了长文本模型,比 SFT 基线高出 46%。