专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
北京厚朴中医  ·  今晚19:00直播 | 筑基开课指北 ·  17 小时前  
北京厚朴中医  ·  厚朴电子日历 | 早 ·  4 天前  
北京厚朴中医  ·  樱花季,在厚朴汤河原学堂来一次身与心的对话 ·  4 天前  
北京厚朴中医  ·  今晚19:00直播 | 肩痛非药物攻略 ·  4 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

S1 这个模型用 6 美元成本,大概一千条数据#AI创造营##a-20250206151012

歸藏的AI工具箱  · 微博  ·  · 2025-02-06 15:10

正文

2025-02-06 15:10

S1 这个模型用 6 美元成本,大概一千条数据 #AI创造营# #ai# #deepseek#

获得了跟 o1-preview 相似的结果

而且观测到了跟 O1 和 R1 类似的 scaling 表现

可能揭示了 o3-mini-low 和 o3-mini-high 是如何从 O3 蒸馏出来的

他们的方式是当 LLM 尝试用 "</think>" 停止思考时,他们会强迫它继续思考,将其替换为 "Wait" 。

为了缩短或延长思考时间。它会开始质疑和反复核对答案。

o3-mini-low 对比 o3-mini-high 可能也是用了这个方法蒸馏的 O3

他们可能训练了 3 个模型,每个模型有不同的平均思考时间。

最终,这种行为训练到模型权重中,S1这个底模用的是Qwen2.5-32B-Instruct

论文地址: 网页链接






请到「今天看啥」查看全文


推荐文章
北京厚朴中医  ·  今晚19:00直播 | 筑基开课指北
17 小时前
北京厚朴中医  ·  厚朴电子日历 | 早
4 天前
北京厚朴中医  ·  今晚19:00直播 | 肩痛非药物攻略
4 天前
跟大厨学做菜  ·  ✅夫妻床上暗号,笑死了!
8 年前
武志红  ·  穷养一个男孩,毁掉三代人
7 年前
凤凰读书  ·  秋分,秋彼岸 | 轻寒正是可人天
7 年前
开发者全社区  ·  2017 年最受欢迎的 10个编程挑战网站
7 年前