文章介绍了阿里发布的 Qwen QwQ-32B模型与DeepSeek R1的对比结果。在多个测试中,QwQ-32B表现良好,尤其是在GPQA Diamond等高难度测试中,尽管在某些方面不如DeepSeek R1,但其表现仍然优于谷歌的Gemini 2.0 Flash等模型。
文章详细说明了不同测试的重要性和测试结果,包括GPQA Diamond、LiveCodeBench、MATH-500、MMLU和AIME2024等测试的介绍和测试结果。
文章提到第三方评估机构Artificial Analysis对目前大模型的评估结果,并给出了Qwen QwQ-32B的智能指数成绩。
文章比较了DeepSeek R1和谷歌Gemini 2.0 Pro的性能和硬件需求,突出了DeepSeek R1使用MoE架构和MLA方法的特点。
文章分析了阿里小模型取得进步的原因,强调了强化学习在阿里模型训练中的应用,并介绍了R1-Zero模型的特点和创新之处。
很多媒体表示阿里最新发布的 Qwen QwQ-32B超越了 DeepSeek R1(满血版),实现“以小博大”,真是这样吗?
相信关注大模型领域的朋友们都知道,模型参数量的大小往往与性能成正比。但这次,Qwen 团队却用
320亿参数
的 QwQ-32B,硬刚拥有
6710亿参数
的 DeepSeek-R1,也就是小尺寸的模型打败了大尺寸的,而尺寸小意味着部署成本大幅下降,甚至只要在消费级显卡上就可以部署。
但我们要注意,每家公司在公布自己的数据时,可能用的都是不同的指标
,会让我们在对比的时候十分困难,就好比每家都拿着不同的尺子。因此我们在比较时,需要有专业且中立的第三方对模型用同样的尺子比较,才能知道阿里是否实现了超越。
吴恩达(一涵之前的文章有介绍过)的公司Artificial Analysis对目前大模型都进行了测试,对比指标都一致,给我们揭晓了谜底,
长文分类汇总在“一涵笔记”:
1、GPQA 钻石:博士级多学科
测试介绍:测试模型的通识问答能力,类似【描述量子力学的基本原理?】,在研究生级科学问题上的推理能力和知识深度,特别强调“Google-Proof”(难以通过搜索直接解答)。
重要性
:
非常高
。
GPQA Diamond 是目前最困难的科学问答基准之一
,专家准确率仅 65%-74%,而顶级模型(如 OpenAI o1)达到 78%,显示其能挑战模型极限。它对评估模型在专业领域的真实理解(而非简单记忆)至关重要,尤其适用于 AGI(通用人工智能)研究。
QwQ-32B测试结果:
59.5%,显著低于 DeepSeek R1 的 71% 成绩
,略低于谷歌 Gemini 2.0 Flash 的 62% 成绩。
2、LiveCodeBench:编码能力
测试介绍:全面评估模型在编码任务中的多样化能力,强调无污染评估。LiveCodeBench 是一个动态更新的编码基准,从 LeetCode、AtCoder 和 Codeforces 收集新问题(截至 2024 年 8 月超过 600 个),测试代码生成、自修复、执行和测试预测等能力。
重要性
:
非常高
。对开发全面的代码助手至关重要。
QwQ-32B测试结果:22%,显著低于 DeepSeek R1 的 62% 成绩,,也低于谷歌 Gemini 2.0 Flash 的 33% 成绩。
3、MATH-500:高难度数学
测试介绍:测试模型在复杂数学问题上的求解能力,强调符号推理和证明能力。MATH-500 是一个包含 500 个高难度数学问题的基准,源自 MATH 数据集,覆盖代数、微积分、数论等,难度接近或超过大学水平。
重要性
:
高
。数学是测试模型逻辑和抽象思维的“硬核”领域,MATH-500 的高难度使其成为区分顶级模型的重要工具。例如,链式思维(Chain-of-Thought)提示能显著提升模型表现,反映其推理深度。对追求数学强模型(如科学计算或教育应用)的开发至关重要。
QwQ-32B测试结果:91%,低于 DeepSeek R1 的 96% 成绩,略低于谷歌 Gemini 2.0 Flash 的 93% 成绩。
4、MMLU:通用知识基准
测试介绍:评估模型的广博知识和跨领域理解能力。MMLU(Massive Multitask Language Understanding)是一个包含 57 个学科的多任务基准,约 15,908 个多项选择题,难度从小学到专业水平。
重要性
:
中等偏高
。
MMLU 是最广泛使用的通用知识基准,提供了模型整体能力的快照。
顶级模型(如 Claude 3.5 Sonnet 和 GPT-4o)准确率接近 88%,但其部分题目可能已被训练数据污染,且推理要求不如 GPQA Diamond 或 MATH-500 严格,因此重要性略有下降。
QwQ-32B测试结果:76%,低于 DeepSeek R1 的 84% 成绩,略低于谷歌 Gemini 2.0 Flash 的 78% 成绩。
5、AIME2024
:
数学推理中等挑战,泛化能力参考。
测试介绍:评估模型在数学问题求解中的逻辑推理和计算能力,尤其是多步骤推理和抽象思维。AIME(American Invitational Mathematics Examination)是美国高中数学竞赛的一个环节,2024年版指的是当年更新的题目集。