DeepSeek R1和Kimi压箱底的RL撞车发布？！ LLM-20250120224357_歸藏的AI工具箱的专栏文章_微信文章

DeepSeek R1和Kimi压箱底的RL撞车发布？！ LLM-20250120224357

歸藏的AI工具箱 · 微博 · · 2025-01-20 22:43

正文

2025-01-20 22:43
本条微博链接

DeepSeek R1和Kimi压箱底的RL撞车发布？！ LLM小春晚吗？

月至暗面发布了他们的多模态推理模型 k1.5，也首次公开了模型的训练技术报告

在short-CoT方面达到领先水平，多个测试中大幅超越GPT-4和Claude Sonnet 3.5

在多个领域的Long-CoT表现与O1级别持平 #AI创造营# #ai#

他们主要通过下面几个方法完成了K1.5的训练：

- 长上下文扩展: 通过将RL的上下文窗口扩展到128k，观察到随着上下文长度的增加，性能持续提升。

- 改进策略优化: 使用在线镜像下降的变体进行鲁棒的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化，进一步改进了算法。

- 简化框架: 结合长上下文扩展和改进策略优化方法，建立了一个简单的RL框架，用于学习与大型语言模型。由于能够扩展上下文长度，学习到的CoTs表现出规划、反思和纠正的特性。

- 多模态: 模型在文本和视觉数据上联合训练，具有联合推理两种模态的能力。

- 还提出了有效的long2short方法，利用 Long-CoT 技术来改进 Short-CoT 模型，在短链思维推理方面取得了SOTA成绩

可以在Kimi网页上输入框右下角模型选择位置选择 Kimi K1.5 - perview 使用这个模型

技术报告地址：github.com/MoonshotAI/Kimi-k1.5

DeepSeek R1和Kimi压箱底的RL撞车发布？！ LLM-20250120224357

正文

请到「今天看啥」查看全文