专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
广东公共DV现场  ·  双层公交撞上隧道,车顶被“削平” ·  17 小时前  
开平广播电视台  ·  广东出台新规!不得额外收费! ·  19 小时前  
开平广播电视台  ·  强制下班!官方回应! ·  昨天  
佛山电视台  ·  太突然!双双宣告停产!网友:一个时代结束 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

太强了!阿里深夜开源思维链模型QwQ-32B!比肩671B满血R1~

自动驾驶之心  · 公众号  ·  · 2025-03-08 00:00

正文

作者 | 伊风 编辑 | 自动驾驶之心

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>>点击进入→ 自动驾驶之心 『多模态大模型』技术交流群
本文只做学术分享,如有侵权,联系删文

太震撼了。阿里直接扔了一个王炸!
QwQ-32B,一个参数量如此小的小模型,居然追平了671B的DeepSeek-R1??!
这也太卷了,看看他们给的数据,真的给人看麻了:
这个模型到底小到什么概念呢?评论区网友在用了一台配置M4 Max芯片的苹果电脑就跑起来了。
网友本人直呼震撼的程度!
这里也推荐下自动驾驶之心打磨的《多模态大模型与自动驾驶实战课程》, 通用大模型训练(算法原理&微调&强化学习RLHF)、自动驾驶多模态大模型一栈式全搞定!
拼团大额优惠!欢迎加入学习~
图片
小模型还有个震撼而实用的优点,价格真的低。API成本才R1的十分之一!
一向大方的通义这次又是上线即开源,评论区一看到是Apache 2.0许可证,就开始感谢大自然的馈赠了。这是官方给的一系列链接:
博客:
https://qwenlm.github.io/blog/qwq-32b
HF:
https://huggingface.co/Qwen/QwQ-32B
Qwen 聊天室(网页试用):
https://chat.qwen.ai
模型部署工具ollama也是连夜更新,紧急上线了QwQ-32B,还艾特了通义的两位大佬表示感谢。
有趣的是,追踪到Binyuan Hui的推特,发现他的置顶是一张梗图“Goodbye ChatGPT,Hello Qwen Chat”。
国产大模型完全有底气对ChatGPT说一声再见了。还记得GPT-4.5推出时,那种普遍觉得乏味、失望的氛围,人们越来越认识到,传统的那套训练技术玩的“大力出奇迹”似乎已经走向了尽头。
读了QwQ-32B的博客,我们发现:这次又是强化学习(RL)立大功了!


QwQ-32B的炼成:强化学习还有多少惊喜?

从阿里的技术博客我们能了解到两点:1.强化学习扩展依然是这次性能飞跃的重中之重 2.这个方向还有很长的路能走!
在具体的训练上,通义团队分了两个阶段去做RL训练。
第一阶段,是从冷启动检查点(指模型已经过了冷启动训练阶段,检查点相当于“存档”)开始,实施了一种基于结果奖励的强化学习(RL)扩展方法。
这里有两个突破值得关注:首先,在初期阶段,有特别针对数学和编程任务进行了RL扩展,相当于对强推理比较重要的领域专门“补课”;其次,不同于传统的奖励模型,通义团队采用了一个数学问题的准确性验证器来确保最终解答的正确性,并使用代码执行服务器来评估生成的代码是否能成功通过预定义的测试用例。






请到「今天看啥」查看全文


推荐文章
广东公共DV现场  ·  双层公交撞上隧道,车顶被“削平”
17 小时前
开平广播电视台  ·  广东出台新规!不得额外收费!
19 小时前
开平广播电视台  ·  强制下班!官方回应!
昨天
庞门正道  ·  下周1有福利!
8 年前
数字营销微刊  ·  案例 | 腾讯手机充值:让心声,有回声
7 年前
秦朔朋友圈  ·  人类还有点时间,因为AI还不会大判断
7 年前