专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可微博热门分享(3.6)》 ... ·  7 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250306230349 ·  6 小时前  
量子位  ·  DeepSeek突袭腾讯发力,豆包Kimi断 ... ·  昨天  
爱可可-爱生活  ·  【[106星]algoMIDI:用算法创造音 ... ·  2 天前  
黄建同学  ·  Google ... ·  2 天前  
51好读  ›  专栏  ›  新智元

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

新智元  · 公众号  · AI  · 2025-03-06 15:19

正文



新智元报道

编辑:编辑部 HNYZ
【新智元导读】 仅用3 2B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!

凌晨,阿里重磅开源全球最顶尖AI模型——通义千问QwQ-32B推理模型。

它仅用320亿参数,便与目前公认的开源最强6710亿参数的满血版DeepSeek-R1(370亿被激活)相媲美。

甚至,QwQ-32B在多项基准测试中全面超越o1-mini。

更令人兴奋的是,任何人能够直接在搭载消费级显卡的电脑或者Mac上体验满血版性能。 (终于,我们的5090D派上用场了

左右滑动查看

更有开发者惊呼:AI模型彻底进入全民普及阶段!

如此来看,QwQ-32B简直堪称「推理能力天花板」与「实用性典范」的完美结合。

苹果机器学习研究员Awni Hannun用搭载MLX架构的M4 Max笔记本去跑QwQ-32B,结果发现运行非常流畅。

如下是在8k token上的长思维过程:

已经是上上代旗舰的3090 Ti,跑起模型来也非常之快——输出速度可达30+token/s。

目前,阿里以宽松的Apache2.0协议将QwQ-32B全面开源,全球开发者与企业均可免费下载、商用。

魔搭社区:
https://modelscope.cn/models/Qwen/QwQ-32B
Hugging Face:
https://huggingface.co/Qwen/QwQ-32B
当然了,所有人皆可通过通义APP免费体验最新的千问QwQ-32B模型,开启方式——Qwen2.5 Plus+Thinking(QwQ)。

体验地址:

https://chat.qwen.ai/?models=Qwen2.5-Plus


开源新王诞生,32B媲美DeepSeek-R1

QwQ-32B到底有多强?我们用数据来说话——
在数学AIME 2024评测集,以及评估代码LiveCodeBenc基准上,QwQ-32B均与DeepSeek-R1旗鼓相当。

而且,其性能远超o1-mini,甚至是相同尺寸基于Qwen系列蒸馏出的R1模型。

在LeCun领衔的「最难LLMs评测榜」LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由UC伯克利等提出的评估准确调用函数或工具方面的BFCL测试中,QwQ-32B得分均超越了DeepSeek- R1。

总的来说,QwQ-32B在数学、编程、通用能力方面取得了领先优势。

正是通过RL的Scaling,QwQ-32B才能实现能与DeepSeek-R1相匹敌的性能。

艾伦人工智能研究所大佬Nathan Lambert发自内心地赞叹:「QwQ-32B是给RL纯粹主义者最好的礼物。」

大佬开始仔细研读阿里放出的官方材料,并且敲桌板表示:我们需要更多论文!

接下来,是对QwQ-32B的最新实测。

我们已经部署在电脑里了

首先,来一段难度不低的数学题。

n个点在一个圆中,点出现在圆中的位置是随机的,求这些点出现在同一个半圆内的概率。

QwQ-32B在经过一大长串的思考之后,给出了正确答案。

同一道题,我们也在本地部署的Q4量化模型上进行了验证。

虽然因为没优化本地环境导致输出较慢,但QwQ-32B依然一次就做对了。

而OpenAI o3-mini-high可能觉得这道题非常简单,只思考了几秒,就开始作答。

最后,果不其然答错了。

上下滑动查看

接下来是一道微积分,看它能不能解决高等数学问题。

可以看出,不管是本地部署的还是线上的QwQ-32B,都有着逻辑严谨、步骤清晰的解题过程。

从明确目标到巧妙变量代换u = xe^x,再到逐步推导和结果验证,成功将复杂积分转化为简单的对数形式,结果完全正确!

同样的提示给到蒸馏版DeepSeek-R1-32B。

可以看到,它在经过了漫长的思考之后,并没有做对。

而最有趣的,还得是OpenAI o1。

它不仅答案不对,而且两次都只说了个思路,剩下的……你自己去解吧。

再上一道推理题。

一群人开舞会,每人头上都戴着一顶帽子帽子只有黑白两种,黑的至少有一顶。每个人都能看到其它人帽子的颜色,却看不到自己的主持人。先让大家看看别人头上戴的是什么帽子,然后关灯,如果有人认为自己戴的是黑帽子就打自己一个耳光。第一次关灯,没有声音于是再开灯,大家再看一遍,关灯时仍然鸦雀无声。一直到第三次关灯,才有劈劈啪啪打耳光的声音响起。问有多少人戴着黑帽子?

在思考过程中,QwQ-32B进行了逻辑严密的推断。

上下滑动查看

最终,它给出了正确答案:3人戴着黑帽子。

本地模型同样回答正确。

而在实测过QwQ-32B的写作能力后,我们忍不住赞叹:国内的大模型中,又出了一个思想和文笔俱佳的文科生!

此前,DeepSeek-R1仿《过秦论》的风格写出的《过美利坚论》技惊四座,文采斐然。

现在让QwQ-32B接受同样的考验。

可以看到,它首先分析了贾谊《过秦论》的特点——多用排比、对仗,气势磅礴,语言犀利。然后想到,自己需要考虑如何将美国的历史事件与《过秦论》的结构对应起来。

难点就在于,要用文言文准确表达一些现代概念,还要保证论点有逻辑性、层层递进。

一番思考之后,QwQ-32B给出的回答果然精彩,文采丝毫不输DeepSeek-R1。

相比之下,用于技术验证的蒸馏版DeepSeek-R1-32B,在文采上就要稍逊一筹了。

另一个DeepSeek-R1惊艳全网的「续写红楼梦后八十回」,我们也把同样的题交给了QwQ-32B,让它续写红楼梦的第八十一回。

它在思考过程中,考虑到自己需要延续前作细腻的描写、复杂的人物关系和隐喻,还要回应埋下的伏笔,比如贾府的衰落、宝黛的爱情悲剧等。

甚至它还分析出,自己还要表现出原著的悲剧色彩和深刻的批判;如果要引入新角色或事件,就必须自然融入现有框架,不能突兀。

经过这番思考后,它列出了第八十一回的故事梗概,看起来很像那么回事。

而按照这个梗概续写的正文框架,虽然仍不及原作文笔,但已不无可取之处。

上下滑动查看

无需集群,笔记本都能跑

众所周知,满血版DeepSeek-R1非常强大,但671B参数量所带来的庞大体积,使得它在本地部署起来十分吃力。

Hugging Face工程师Matthew Carrigan的部署过程,就是一个很好的参考。

想要在GPU上实现720GB(Q8量化)的显存,花费可能要10万美元以上。

当然,也可以另辟蹊径地使用CPU进行部署,只不过生成的速度会慢很多。此时,需要24条32GB的内存才能装下。

即便是Q4量化的版本DeepSeek-R1-Q4_K_M,也得需要404GB,仍然不小。

以谷歌开发者专家、UCL计算机系博士生Xihan Li的部署实操为例。

除了模型参数占用的内存+显存空间(404GB)以外,实际运行时还需额外预留一些内存(显存)空间用于上下文缓存(总计约500GB)。

4×24GB显卡( RTX 4090 )和4×96GB 内存 配置下,DeepSeek-R1-Q4_K_M的短文本生成的速度只有2-4 token/秒,长文本生成时速度会降至1-2token/秒。基本不可用。

相比之下,QwQ-32B本地部署则友好的多,消费级GPU单卡就能轻松部署,而且速度飞起!

比如,在Hugging Face上开源的QwQ-32B版本,以Q4量化精度为例,大小不到20GB。

不只是4-bit量化的版本,Hugging Face上还有从2位一直到8位不同的版本,最小仅需不到13GB,将本地部署的难度直接拉到最低!普通的办公电脑都能运行得起来。

本地部署后,加载与运行也是相当的容易,十几行代码就能完成模型加载、处理问题并生成答案。

Ollama也上线了Q4版本的QwQ-32B模型,安装Ollama后只需复制ollama run qwq到终端,即可体验,简直没有门槛。

Nous Research的常驻研究员N8 Programs在X上称赞QwQ-32B真是一个令人难以置信的进步。

他展示的是前沿推理模型在LiveBench上的得分(下图)——LiveBench是一个全面的在线评估测试,覆盖了广泛的领域(并且通常与实际情况相符)。

可以看到,QwQ-32B的得分介于R1和o3-mini之间,但成本却只有它们的十分之一。







请到「今天看啥」查看全文