专栏名称: Dots机构投资者社区
机构投资者组成的社区,深度点评财经事件
目录
相关文章推荐
广东疾控  ·  转发收藏!春分后南北方食养各有重点→ ·  昨天  
丁香医生  ·  有些不开心可能是抑郁,别再独自硬撑了 ·  昨天  
丁香医生  ·  想要「拉屎自由」,一定要每天吃够它! ·  昨天  
51好读  ›  专栏  ›  Dots机构投资者社区

阿里开源新模型:媲美DeepSeek-R1,参数大降20倍!

Dots机构投资者社区  · 公众号  ·  · 2025-03-09 08:15

正文

本文转自微信公众号“AIGC开放社区”,作者:AIGC开放社区。

阿里巴巴开源了最新大模型QwQ-32B,并且支持Apache 2.0 开源协议可以商业化。

根据阿里公布的测试数据显示,QwQ-32B在AIME24、LiveCodeBench、LiveBench、IFEval等主流测试基准中,可以媲美DeepSeek开源的R1-671B和OpenAI的o1-mini。

但QwQ-32B只有320亿参数,而R1拥有6710亿参数,体量大降了20倍以上。在部署、推理效率、成本方面非常出色。

图片 开源地址:https://huggingface.co/Qwen/QwQ-32B
体验地址:https://chat.qwen.ai/

QwQ-32B能以如此低的参数获得这么高的性能,主要是应用了大规模强化学习来实现,从而具备深度思考和复杂推理能力。

在冷启动基础上开展大规模强化学习,初始阶段针对数学和编程任务进行 强化学习 训练具有重要意义。与传统依赖奖励模型不同,阿里通过校验生成答案的正确性为数学问题提供反馈,通过代码执行服务器评估生成代码是否通过测试用例来提供代码反馈。

图片

在数学解题中,传统的奖励模型只是简单地根据答案是否正确给予固定奖励,而阿里的方法能够更精确地评估答案的推理过程是否正确。例如,对于一道复杂的数学证明题,传统奖励模型可能只关注最终结论是否正确,而阿里的校验方式可以对证明步骤的每一步进行分析,若某一步推理错误,则给予相应的负反馈,促使模型改进推理过程。

在编程任务中,通过代码执行服务器评估代码是否通过测试用例,能够让模型快速了解代码的实际运行效果,从而更有效地改进代码生成策略。

例如,在开发一个简单的排序算法程序时,模型生成代码后,通过执行服务器运行代码并检查是否能正确对给定数据进行排序,若不能通过测试用例,模型可以根据错误提示和反馈调整代码生成逻辑。







请到「今天看啥」查看全文