DeepSeek R1和Kimi压箱底的RL撞车发布?! LLM小春晚吗?
月至暗面发布了他们的多模态推理模型 k1.5,也首次公开了模型的训练技术报告
在short-CoT方面达到领先水平,多个测试中大幅超越GPT-4和Claude Sonnet 3.5
在多个领域的Long-CoT表现与O1级别持平 #AI创造营# #ai#
他们主要通过下面几个方法完成了K1.5的训练:
- 长上下文扩展: 通过将RL的上下文窗口扩展到128k,观察到随着上下文长度的增加,性能持续提升。
- 改进策略优化: 使用在线镜像下降的变体进行鲁棒的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,进一步改进了算法。
- 简化框架: 结合长上下文扩展和改进策略优化方法,建立了一个简单的RL框架,用于学习与大型语言模型。由于能够扩展上下文长度,学习到的CoTs表现出规划、反思和纠正的特性。
- 多模态: 模型在文本和视觉数据上联合训练,具有联合推理两种模态的能力。
- 还提出了有效的long2short方法,利用 Long-CoT 技术来改进 Short-CoT 模型,在短链思维推理方面取得了SOTA成绩
可以在Kimi网页上输入框右下角模型选择位置选择 Kimi K1.5 - perview 使用这个模型
技术报告地址:github.com/MoonshotAI/Kimi-k1.5
月至暗面发布了他们的多模态推理模型 k1.5,也首次公开了模型的训练技术报告
在short-CoT方面达到领先水平,多个测试中大幅超越GPT-4和Claude Sonnet 3.5
在多个领域的Long-CoT表现与O1级别持平 #AI创造营# #ai#
他们主要通过下面几个方法完成了K1.5的训练:
- 长上下文扩展: 通过将RL的上下文窗口扩展到128k,观察到随着上下文长度的增加,性能持续提升。
- 改进策略优化: 使用在线镜像下降的变体进行鲁棒的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,进一步改进了算法。
- 简化框架: 结合长上下文扩展和改进策略优化方法,建立了一个简单的RL框架,用于学习与大型语言模型。由于能够扩展上下文长度,学习到的CoTs表现出规划、反思和纠正的特性。
- 多模态: 模型在文本和视觉数据上联合训练,具有联合推理两种模态的能力。
- 还提出了有效的long2short方法,利用 Long-CoT 技术来改进 Short-CoT 模型,在短链思维推理方面取得了SOTA成绩
可以在Kimi网页上输入框右下角模型选择位置选择 Kimi K1.5 - perview 使用这个模型
技术报告地址:github.com/MoonshotAI/Kimi-k1.5