S1 这个模型用 6 美元成本，大概一千条数据#AI创造营##a-20250206151012_歸藏的AI工具箱的专栏文章_微信文章

S1 这个模型用 6 美元成本，大概一千条数据#AI创造营##a-20250206151012

歸藏的AI工具箱 · 微博 · · 2025-02-06 15:10

正文

2025-02-06 15:10
本条微博链接

S1 这个模型用 6 美元成本，大概一千条数据 #AI创造营# #ai# #deepseek#

获得了跟 o1-preview 相似的结果

而且观测到了跟 O1 和 R1 类似的 scaling 表现

可能揭示了 o3-mini-low 和 o3-mini-high 是如何从 O3 蒸馏出来的

他们的方式是当 LLM 尝试用 "</think>" 停止思考时，他们会强迫它继续思考，将其替换为 "Wait" 。

为了缩短或延长思考时间。它会开始质疑和反复核对答案。

o3-mini-low 对比 o3-mini-high 可能也是用了这个方法蒸馏的 O3

他们可能训练了 3 个模型，每个模型有不同的平均思考时间。

最终，这种行为训练到模型权重中，S1这个底模用的是Qwen2.5-32B-Instruct

论文地址：

网页链接

S1 这个模型用 6 美元成本，大概一千条数据#AI创造营##a-20250206151012

正文

请到「今天看啥」查看全文