专栏名称: 一涵笔记

十年魔都金融人，为大家提供投资精准导航。投资本是门槛很高的事，很多小白却不知道自己是青铜与王者在同台竞技，所以常常亏钱。从寻找确定性理念出发，我啃食了理财、保险、可转债，上至房产、信托、私募，外至港险、港美股基金与衍生品的大杂烩知识。

阿里新模型真超越Deepseek了？AI起飞时代到来！

一涵笔记 · 公众号 · · 2025-03-10 23:09

主要观点总结

本文主要介绍了阿里最新发布的 Qwen QwQ-32B大模型的表现和成绩，总结了关键数据。

关键观点总结

关键观点1: Qwen QwQ-32B超越DeepSeek R1的对比结果

文章介绍了阿里发布的 Qwen QwQ-32B模型与DeepSeek R1的对比结果。在多个测试中，QwQ-32B表现良好，尤其是在GPQA Diamond等高难度测试中，尽管在某些方面不如DeepSeek R1，但其表现仍然优于谷歌的Gemini 2.0 Flash等模型。

关键观点2: 不同测试的重要性和测试结果

文章详细说明了不同测试的重要性和测试结果，包括GPQA Diamond、LiveCodeBench、MATH-500、MMLU和AIME2024等测试的介绍和测试结果。

关键观点3: 第三方评估机构Artificial Analysis的评估结果

文章提到第三方评估机构Artificial Analysis对目前大模型的评估结果，并给出了Qwen QwQ-32B的智能指数成绩。

关键观点4: DeepSeek R1与谷歌Gemini 2.0 Pro的比较

文章比较了DeepSeek R1和谷歌Gemini 2.0 Pro的性能和硬件需求，突出了DeepSeek R1使用MoE架构和MLA方法的特点。

关键观点5: 阿里小模型进步的原因

文章分析了阿里小模型取得进步的原因，强调了强化学习在阿里模型训练中的应用，并介绍了R1-Zero模型的特点和创新之处。

正文

很多媒体表示阿里最新发布的 Qwen QwQ-32B超越了 DeepSeek R1（满血版），实现“以小博大”，真是这样吗？

相信关注大模型领域的朋友们都知道，模型参数量的大小往往与性能成正比。但这次，Qwen 团队却用 320亿参数 的 QwQ-32B，硬刚拥有 6710亿参数 的 DeepSeek-R1，也就是小尺寸的模型打败了大尺寸的，而尺寸小意味着部署成本大幅下降，甚至只要在消费级显卡上就可以部署。

但我们要注意，每家公司在公布自己的数据时，可能用的都是不同的指标 ，会让我们在对比的时候十分困难，就好比每家都拿着不同的尺子。因此我们在比较时，需要有专业且中立的第三方对模型用同样的尺子比较，才能知道阿里是否实现了超越。

吴恩达（一涵之前的文章有介绍过）的公司Artificial Analysis对目前大模型都进行了测试，对比指标都一致，给我们揭晓了谜底，长文分类汇总在“一涵笔记”：

1、GPQA 钻石：博士级多学科

测试介绍：测试模型的通识问答能力，类似【描述量子力学的基本原理？】，在研究生级科学问题上的推理能力和知识深度，特别强调“Google-Proof”（难以通过搜索直接解答）。

重要性 ： 非常高 。 GPQA Diamond 是目前最困难的科学问答基准之一 ，专家准确率仅 65%-74%，而顶级模型（如 OpenAI o1）达到 78%，显示其能挑战模型极限。它对评估模型在专业领域的真实理解（而非简单记忆）至关重要，尤其适用于 AGI（通用人工智能）研究。

QwQ-32B测试结果： 59.5%，显著低于 DeepSeek R1 的 71% 成绩 ，略低于谷歌 Gemini 2.0 Flash 的 62% 成绩。

2、LiveCodeBench：编码能力

测试介绍：全面评估模型在编码任务中的多样化能力，强调无污染评估。LiveCodeBench 是一个动态更新的编码基准，从 LeetCode、AtCoder 和 Codeforces 收集新问题（截至 2024 年 8 月超过 600 个），测试代码生成、自修复、执行和测试预测等能力。

重要性 ： 非常高 。对开发全面的代码助手至关重要。

QwQ-32B测试结果：22%，显著低于 DeepSeek R1 的 62% 成绩,，也低于谷歌 Gemini 2.0 Flash 的 33% 成绩。

3、MATH-500：高难度数学

测试介绍：测试模型在复杂数学问题上的求解能力，强调符号推理和证明能力。MATH-500 是一个包含 500 个高难度数学问题的基准，源自 MATH 数据集，覆盖代数、微积分、数论等，难度接近或超过大学水平。

重要性 ：高。数学是测试模型逻辑和抽象思维的“硬核”领域，MATH-500 的高难度使其成为区分顶级模型的重要工具。例如，链式思维（Chain-of-Thought）提示能显著提升模型表现，反映其推理深度。对追求数学强模型（如科学计算或教育应用）的开发至关重要。

QwQ-32B测试结果：91%，低于 DeepSeek R1 的 96% 成绩，略低于谷歌 Gemini 2.0 Flash 的 93% 成绩。

4、MMLU：通用知识基准

测试介绍：评估模型的广博知识和跨领域理解能力。MMLU（Massive Multitask Language Understanding）是一个包含 57 个学科的多任务基准，约 15,908 个多项选择题，难度从小学到专业水平。

重要性 ： 中等偏高 。 MMLU 是最广泛使用的通用知识基准，提供了模型整体能力的快照。 顶级模型（如 Claude 3.5 Sonnet 和 GPT-4o）准确率接近 88%，但其部分题目可能已被训练数据污染，且推理要求不如 GPQA Diamond 或 MATH-500 严格，因此重要性略有下降。

QwQ-32B测试结果：76%，低于 DeepSeek R1 的 84% 成绩，略低于谷歌 Gemini 2.0 Flash 的 78% 成绩。

5、AIME2024 ： 数学推理中等挑战，泛化能力参考。

测试介绍：评估模型在数学问题求解中的逻辑推理和计算能力，尤其是多步骤推理和抽象思维。AIME（American Invitational Mathematics Examination）是美国高中数学竞赛的一个环节，2024年版指的是当年更新的题目集。