专栏名称: 天池大数据科研平台
天池,基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据和分布式计算资源,旨在打造“数据众智、众创”第一平台。在这里,人人都可以玩转大数据,共同探索数据众创新模式。
目录
相关文章推荐
软件定义世界(SDX)  ·  离散型制造智能化水平评价体系及应用 ·  22 小时前  
天池大数据科研平台  ·  阿里推理模型一战封神!32B硬刚671B ... ·  17 小时前  
软件定义世界(SDX)  ·  2024年“数据要素×”大赛优秀项目案例集 ·  2 天前  
51好读  ›  专栏  ›  天池大数据科研平台

阿里推理模型一战封神!32B硬刚671B DeepSeek,1/10成本,苹果笔记本可跑

天池大数据科研平台  · 公众号  · 大数据  · 2025-03-06 10:27

正文

本文转载来源:量子位公众号,梦晨发自凹非寺

起猛了,Qwen发布最新32B推理模型,跑分不输671B的满血版DeepSeek R1。

都是杭州团队,要不要这么卷。

QwQ-32B,基于Qwen2.5-32B+强化学习炼成。

之后还将与Agent相关的功能集成到推理模型中:

可以在调用工具的同时进行进行批判性思考,并根据环境反馈调整其思考过程。

QwQ-32B的权重以Apache 2.0 许可证开源,并且可以通过Qwen Chat在线体验。

手快的网友直接就是一个本地部署在m4max芯片苹果笔记本上。

也有网友连夜at各大第三方API托管方,赶紧起来干活了。

32B不输DeepSeek R1

目前QwQ-32B还未放出完整技术报告,官方发布页面对强化学习方法做了简短说明:

从一个冷启动检查点开始,实施了由Outcome Based Reward驱动的强化学习(RL)扩展方法。

在初始阶段专门针对数学和编码任务扩展强化学习,没有依赖传统的奖励模型,而是使用一个数学问题准确性验证器来确保最终解决方案的正确性,并使用一个代码执行服务器来评估生成的代码是否成功通过预定义的测试用例。

随着训练轮次的推进,两个领域的性能都呈现持续提升。

在第一阶段之后,为通用能力增加了另一阶段的强化学习,它使用来自通用奖励模型的奖励和一些基于规则的验证器进行训练。

团队发现,这一阶段少量步骤的强化学习训练可以提高其他通用能力的性能,如遵循指令、符合人类偏好以及智能体性能,同时在数学和编码方面不会出现显著的性能下降。

此外在ModelScope页面,还可以看出QwQ 32B是一个密集模型,没有用到MoE,上下文长度有131k。

对此,有亚马逊工程师评价不用MoE架构的32B模型,意味着可以在单台机器上高效运行。

DeepSeek没有问题,很强大,但要托管他且盈利需要一个大型集群,还需要使用DeepSeek最近开源的一系列通信库。







请到「今天看啥」查看全文