专栏名称: 猿大侠

猿大侠，既然选择了，就一定成为大侠！小程序、小游戏、Google、苹果、职场、前沿技术分享，一起成长。

杭州超越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距

猿大侠 · 公众号 · · 2025-02-05 12:08

正文

刚刚，大模型竞技场榜单上再添一款国产模型——

来自阿里， Qwen2.5-Max ，超越了DeepSeek-V3，以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是 在编程、数学等方面表现格外突出 ，能够与满血o1、DeepSeek-R1并列第一。

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前集成了190多种模型，采用模型两两组队交给用户盲测，根据真实对话体验对模型能力进行投票。

也正因此， Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发 WebDev 榜单上，Qwen2.5-Max也冲进了前十。

对此lmsys官方评价说， 中国AI正在快速缩小差距 ！

并且亲身使用过的网友表示，相比之下Qwen的表现更加稳定。

还有人说，Qwen很快就会取代硅谷的所有普通模型。

综合榜单前三名中第一、二名被谷歌Gemini家族包揽，GPT-4o和DeepSeek-R1并列第三。

Qwen2.5-Max则是和o1-preview一起并列第七名，稍逊于满血o1。

接下来Qwen2.5-Max在各个单项中的表现。

在逻辑性较强的 数学和代码 任务当中，Qwen2.5-Max的成绩都超过了o1-mini，和满血o1以及DeepSeek-R1并列第一。

并且在数学榜单上并列第一的模型当中，Qwen2.5-Max是唯一一个非推理模型。

如果仔细观察具体的对战记录，还可以发现，Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。

复杂提示词 任务中，Qwen2.5-Max和o1-preview并列第二，如果仅限英文则可以排到第一，和o1-preview、DeepSeek-R1等平起平坐。

另外，Qwen2.5-Max的 多轮对话 能力也和DeepSeek-R1并列第一； 长文本 （不低于500tokens）则排行第三，超过了o1-preview。

此外，阿里还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。

其中指令模型的对比当中，Qwen2.5-Max在Arena-Hard （近似人类偏好）、MMLU-Pro （大学水平知识）等基准当中，都和GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。

在开源的基座模型对比当中，Qwen2.5-Max的成绩也全面超过了DeepSeek-V3，并遥遥领先于Llama 3.1-405B。

至于base model，Qwen2.5-Max在大多数基准测试中，也都展现出了显著的优势（闭源模型base model无法访问，只能比较开源模型）。

Qwen2.5-Max上线后，大量网友都来实测。

目前发现它在代码、推理等方面的表现突出。

比如让它用JavaScript写一个象棋游戏。

因为具备 Artifacts 功能，一句话开发的小游戏，可立刻开玩：

它生成的代码往往更简单易读好用。

复杂提示词的推理问题上，Qwen2.5-Max快速又准确：

您的团队处理客户请求共有3步：