专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
吃什么情报局  ·  一年就 1 ... ·  19 小时前  
江苏警方  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  22 小时前  
江苏警方  ·  近期大量上市,多人吃进急诊室!紧急提醒→ ·  22 小时前  
慧田哲学  ·  张鸣:退休之际的废话(这也太敢言了) ·  昨天  
51好读  ›  专栏  ›  歸藏的AI工具箱

DeepSeek R1和Kimi压箱底的RL撞车发布?! LLM-20250120224357

歸藏的AI工具箱  · 微博  ·  · 2025-01-20 22:43

正文

2025-01-20 22:43

DeepSeek R1和Kimi压箱底的RL撞车发布?! LLM小春晚吗?

月至暗面发布了他们的多模态推理模型 k1.5,也首次公开了模型的训练技术报告

在short-CoT方面达到领先水平,多个测试中大幅超越GPT-4和Claude Sonnet 3.5

在多个领域的Long-CoT表现与O1级别持平 #AI创造营# #ai#

他们主要通过下面几个方法完成了K1.5的训练:

- 长上下文扩展: 通过将RL的上下文窗口扩展到128k,观察到随着上下文长度的增加,性能持续提升。

- 改进策略优化: 使用在线镜像下降的变体进行鲁棒的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,进一步改进了算法。

- 简化框架: 结合长上下文扩展和改进策略优化方法,建立了一个简单的RL框架,用于学习与大型语言模型。由于能够扩展上下文长度,学习到的CoTs表现出规划、反思和纠正的特性。

- 多模态: 模型在文本和视觉数据上联合训练,具有联合推理两种模态的能力。

- 还提出了有效的long2short方法,利用 Long-CoT 技术来改进 Short-CoT 模型,在短链思维推理方面取得了SOTA成绩

可以在Kimi网页上输入框右下角模型选择位置选择 Kimi K1.5 - perview 使用这个模型

技术报告地址:github.com/MoonshotAI/Kimi-k1.5






请到「今天看啥」查看全文