太强了！阿里深夜开源思维链模型QwQ-32B！比肩671B满血R1~

自动驾驶之心 · 公众号 · · 2025-03-08 00:00

正文

作者 | 伊风编辑 | 自动驾驶之心

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>>点击进入→ 自动驾驶之心 『多模态大模型』技术交流群

本文只做学术分享，如有侵权，联系删文

太震撼了。阿里直接扔了一个王炸！

QwQ-32B，一个参数量如此小的小模型，居然追平了671B的DeepSeek-R1？？！

这也太卷了，看看他们给的数据，真的给人看麻了：

这个模型到底小到什么概念呢？评论区网友在用了一台配置M4 Max芯片的苹果电脑就跑起来了。

网友本人直呼震撼的程度！

这里也推荐下自动驾驶之心打磨的《多模态大模型与自动驾驶实战课程》，通用大模型训练（算法原理&微调&强化学习RLHF）、自动驾驶多模态大模型一栈式全搞定！

拼团大额优惠！欢迎加入学习~

小模型还有个震撼而实用的优点，价格真的低。API成本才R1的十分之一！

一向大方的通义这次又是上线即开源，评论区一看到是Apache 2.0许可证,就开始感谢大自然的馈赠了。这是官方给的一系列链接：

博客：

https://qwenlm.github.io/blog/qwq-32b

HF：

https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室（网页试用）：

https://chat.qwen.ai

模型部署工具ollama也是连夜更新，紧急上线了QwQ-32B，还艾特了通义的两位大佬表示感谢。

有趣的是，追踪到Binyuan Hui的推特，发现他的置顶是一张梗图“Goodbye ChatGPT，Hello Qwen Chat”。

国产大模型完全有底气对ChatGPT说一声再见了。还记得GPT-4.5推出时，那种普遍觉得乏味、失望的氛围，人们越来越认识到，传统的那套训练技术玩的“大力出奇迹”似乎已经走向了尽头。

读了QwQ-32B的博客，我们发现：这次又是强化学习（RL）立大功了！

从阿里的技术博客我们能了解到两点：1.强化学习扩展依然是这次性能飞跃的重中之重 2.这个方向还有很长的路能走！

在具体的训练上，通义团队分了两个阶段去做RL训练。

第一阶段，是从冷启动检查点（指模型已经过了冷启动训练阶段，检查点相当于“存档”）开始，实施了一种基于结果奖励的强化学习（RL）扩展方法。

这里有两个突破值得关注：首先，在初期阶段，有特别针对数学和编程任务进行了RL扩展，相当于对强推理比较重要的领域专门“补课”；其次，不同于传统的奖励模型，通义团队采用了一个数学问题的准确性验证器来确保最终解答的正确性，并使用代码执行服务器来评估生成的代码是否能成功通过预定义的测试用例。