Kimi k1.5将强化学习的上下文窗口扩展到128k,发现随着上下文长度增加,性能持续提升。团队采用了部分轨迹回放技术,通过重用之前轨迹的大块内容来生成新轨迹,避免从头开始生成新轨迹的成本,有效提高了训练效率。这种长上下文扩展让模型能够更好地规划、反思和纠正推理过程,就像给模型装上了“千里眼”,让它能看到更远的“未来”,从而做出更合理的决策。
Kimi k1.5是一个多模态模型,能够同时处理文本和视觉数据。这种多模态训练方式让模型在处理问题时可以综合考虑多种信息,比如在解答一道包含图表的数学题时,模型不仅能理解文字描述,还能“看懂”图表,从而更准确地给出答案。
实验结果
长文本推理性能
Kimi k1.5的长文本推理版本在多个基准测试中表现出色,例如在AIME 2024中达到了77.5的通过率,在MATH 500中达到了96.2的准确率,在Codeforces中达到了94百分位,与OpenAI的o1相当,甚至在某些任务上超过了现有的其他模型。这说明Kimi k1.5在处理复杂推理任务时已经达到了顶尖水平。