专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

国产模型再秀硅谷！阿里Qwen2.5-Max数学、编程能力全球第一

深度学习自然语言处理 · 公众号 · · 2025-02-07 12:18

正文

春节期间，咱们国产AI大模型就给全球网友送上了一份“见面礼”——阿里巴巴的 Qwen2.5-Max 正式登顶 中国最强 ，更是在 Chatbot Arena全球排行榜 上杀进前十，超越DeepSeek V3、o1-mini、Claude-3.5-Sonnet等劲敌，以 1332分 牢牢占据 全球第七 的位置。原创：深度学习自然语言处理公众号

更炸裂的是，在 数学和编程能力 上，Qwen2.5-Max 直接封神，稳坐全球第一。看来以后谁再说“大模型不会做数学题”，Qwen2.5-Max 可要第一个跳出来表示不服了！

截取自Chatbot Arena LLM LeaderBoard https://lmarena.ai/?leaderboard

全球盲测，真刀真枪干出来的成绩！

这次Qwen2.5-Max的成绩不是“自家说了算”，而是由全球知名的 Chatbot Arena 榜单给出的权威认证！

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，全球190多个大模型在这里公平竞技，通过用户的真实体验投票来决定最终排名。

换句话说，Qwen2.5-Max 这次是靠 真实用户的盲测投票 硬生生打上去的，没用一点“PPT能力”！Chatbot Arena官方甚至都惊了，直接发推称：

Alibaba's Qwen-Max is strong across domains. Especially in technical ones (Coding, Math, Hard Prompts).

翻译过来就是： 阿里巴巴的Qwen2.5-Max在多个领域表现强劲，尤其是在编程、数学和硬提示词理解上。

这就相当于官方盖章认证，Qwen2.5-Max 在技术能力上，已经稳稳坐在全球第一梯队了！

Qwen2.5-Max：谁还不是个“卷王”呢？

在 AI 这个“谁更聪明”的世界里，Qwen2.5-Max 毫不客气地站了出来，向各路高手发起挑战。经过一轮实战 PK，它的表现可以用两个字概括： 能打！

模型 PK 赛：Qwen2.5-Max 谁都不怵

官方选取了多个硬核测试，包括：

MMLU-Pro （大学生水平考核，学术硬实力比拼）
LiveCodeBench （编程能力测试，代码实力见真章）
LiveBench （综合能力挑战，全能王之争）
Arena-Hard （谁更像人类，谁更受欢迎）

比完一圈，Qwen2.5-Max 稳超 DeepSeek V3 ，在多个关键测试中给出了炸裂表现，尤其在 MMLU-Pro 这类高难度考试中，展现了超强实力！ Qwen2.5-Max位列LiveBench第9，同样斩获非推理模型的 「中国模型冠军」 。该榜单由Yann LeCun发起，被称为「全球首个无法被操纵的LLM基准测试」。