3月6日,当投资者们为阿里股价的再次大涨欢呼时,一场事先毫无声张的技术革命正通过QwQ-32B模型悄然展开。这款仅有320亿参数的推理大模型,以四两拨千斤的小参数姿态,性能直逼DeepSeek-R1,将中国AI竞赛一举带入全新维度,与其共同成为中国在全球AI赛道的开源双雄。值得一提的是,这也意味着,
在全球前三的AI开源公司中,杭州独占两席
。
在DeepSeek-R1以6710亿参数树立起行业标杆的背景下,阿里云的这次出击,既是对技术路线的重构级探索,更是中国科技企业突破“参数内卷”的里程碑式宣言,不仅标志着中国AI产业开始挣脱参数规模的路径依赖,更是直接击穿了AI行业由来已久的“参数崇拜”定律。
破除参数迷思
在传统认知中,模型参数规模与性能有着强关联,DeepSeek-R1的6710亿参数架构曾被视为行业技术壁垒,但其需要专业级显卡集群支撑,而QwQ-32B通过强化学习(Reinforcement Learning,RL)的规模化应用,即实现了令人难以置信的以小搏大。
阿里云的QwQ-32B模型之所以能够如此给力,根本原因还是它的强化学习能力有了质的飞跃。
据悉,在预训练模型Qwen2.5-32B基础上,阿里采用了两阶段强化学习策略,先针对数学/编程任务的精准验证式RL训练,再叠加通用能力优化的混合式RL迭代。这种摒弃传统奖励模型的“硬验证”机制,使得32B参数的推理能力突破参数天花板,在AIME24数学测试中达到79.5分,DeepSeek-R1为79.8分,而能耗成本仅为后者的1/10。
再加上动态扩展技术,配合分组查询注意力的设计,其有效参数利用率(EPU)达传统模型的3倍,相当于960亿密集参数的等效性能。这种“参数虚拟化”技术,让英伟达(NVIDIA)RTX 4090显卡即可驱动顶级推理能力,彻底改写了AI硬件的成本公式。
就像海外的AI大神所说的那样,他们那些笨重的大模型正在浪费大量的金钱。
事实上,通过QwQ-32B,阿里云还在客观上开启了大模型的“摩尔定律”,在可预见的未来,就像过去四十年,CPU一路飙升的性价比一样,大模型的降本速度也只会越来越快,显卡决定论在大模型行业彻底失去了市场。
阿里云重新定义AI竞赛规则
QwQ-32B的横空出世,正在重构产业认知,首当其冲的就是参数的转换效率。传统的Chinchilla定律开始遭遇正面挑战——这是一种用于描述大模型性能与计算资源之间关系的定律,由DeepMind首次提出。该定律表明,大模型的性能提升与计算资源的增加成正比,即模型的参数量和数据集的大小直接影响到其感知能力、推理能力和记忆能力的提升。
而
阿里云通过320亿参数实现等效960亿参数性能,证明了“参数密度”比“参数总量”更具战略价值
。这种突破使得个人及中小企业在天猫上就能买到可部署顶级模型的显卡。这哪怕就是在前天,也还是一件不可想象的事情。
一张民用的娱乐显卡就能跑大模型,对于用户来说,意味着什么呢?对比 DeepSeek-R1 的部署成本即可略窥一二。