专栏名称: 猿大侠
猿大侠,既然选择了,就一定成为大侠! 小程序、小游戏、Google、苹果、职场、前沿技术分享,一起成长。
目录
相关文章推荐
人生资本论  ·  形势逆转,信心来了,内外突然都在看好中国 ·  昨天  
并购优塾产业链地图  ·  生活不易,转移家庭风险后享受更美好的人生 ·  3 天前  
债市唤醒官  ·  2025-0218-市场已经进入可以轻仓买入 ... ·  5 天前  
人生资本论  ·  起猛了!中国新基建狂飙突进,天量财富 ·  2 天前  
EarlETF  ·  数据复盘 2月20日 ·  2 天前  
51好读  ›  专栏  ›  猿大侠

杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距

猿大侠  · 公众号  ·  · 2025-02-05 12:08

正文

明敏 克雷西
量子位 | 公众号 QbitAI

刚刚,大模型竞技场榜单上再添一款国产模型——

来自阿里, Qwen2.5-Max ,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是 在编程、数学等方面表现格外突出 ,能够与满血o1、DeepSeek-R1并列第一。

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。

也正因此, Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发 WebDev 榜单上,Qwen2.5-Max也冲进了前十。

对此lmsys官方评价说, 中国AI正在快速缩小差距

并且亲身使用过的网友表示,相比之下Qwen的表现更加稳定。

还有人说,Qwen很快就会取代硅谷的所有普通模型。

四种单项能力登顶

综合榜单前三名中第一、二名被谷歌Gemini家族包揽,GPT-4o和DeepSeek-R1并列第三。

Qwen2.5-Max则是和o1-preview一起并列第七名,稍逊于满血o1。

接下来Qwen2.5-Max在各个单项中的表现。

在逻辑性较强的 数学和代码 任务当中,Qwen2.5-Max的成绩都超过了o1-mini,和满血o1以及DeepSeek-R1并列第一。

并且在数学榜单上并列第一的模型当中,Qwen2.5-Max是唯一一个非推理模型。

如果仔细观察具体的对战记录,还可以发现,Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。

复杂提示词 任务中,Qwen2.5-Max和o1-preview并列第二,如果仅限英文则可以排到第一,和o1-preview、DeepSeek-R1等平起平坐。

另外,Qwen2.5-Max的 多轮对话 能力也和DeepSeek-R1并列第一; 长文本 (不低于500tokens) 则排行第三,超过了o1-preview。

此外,阿里还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。

其中指令模型的对比当中,Qwen2.5-Max在Arena-Hard (近似人类偏好) 、MMLU-Pro (大学水平知识) 等基准当中,都和GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。

在开源的基座模型对比当中,Qwen2.5-Max的成绩也全面超过了DeepSeek-V3,并遥遥领先于Llama 3.1-405B。

至于base model,Qwen2.5-Max在大多数基准测试中,也都展现出了显著的优势 (闭源模型base model无法访问,只能比较开源模型)

代码/推理突出,支持Artifacts

Qwen2.5-Max上线后,大量网友都来实测。

目前发现它在代码、推理等方面的表现突出。

比如让它用JavaScript写一个象棋游戏。

因为具备 Artifacts 功能,一句话开发的小游戏,可立刻开玩:

它生成的代码往往更简单易读好用。

复杂提示词的推理问题上,Qwen2.5-Max快速又准确:

您的团队处理客户请求共有3步:







请到「今天看啥」查看全文