春节期间,咱们国产AI大模型就给全球网友送上了一份“见面礼”——阿里巴巴的
Qwen2.5-Max
正式登顶
中国最强
,更是在
Chatbot Arena全球排行榜
上杀进
前十
,超越DeepSeek V3、o1-mini、Claude-3.5-Sonnet等劲敌,以
1332分
牢牢占据
全球第七
的位置。
原创
:深度学习自然语言处理 公众号
更炸裂的是,在
数学和编程能力
上,Qwen2.5-Max 直接封神,稳坐全球第一。看来以后谁再说“大模型不会做数学题”,Qwen2.5-Max 可要第一个跳出来表示不服了!
截取自Chatbot Arena LLM LeaderBoard https://lmarena.ai/?leaderboard
全球盲测,真刀真枪干出来的成绩!
这次Qwen2.5-Max的成绩不是“自家说了算”,而是由全球知名的
Chatbot Arena
榜单给出的权威认证!
Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,全球190多个大模型在这里公平竞技,通过用户的真实体验投票来决定最终排名。
换句话说,Qwen2.5-Max 这次是靠
真实用户的盲测投票
硬生生打上去的,没用一点“PPT能力”!Chatbot Arena官方甚至都惊了,直接发推称:
Alibaba's Qwen-Max is strong across domains. Especially in technical ones (Coding, Math, Hard Prompts).
翻译过来就是:
阿里巴巴的Qwen2.5-Max在多个领域表现强劲,尤其是在编程、数学和硬提示词理解上。
这就相当于官方盖章认证,Qwen2.5-Max 在技术能力上,已经稳稳坐在全球第一梯队了!
Qwen2.5-Max:谁还不是个“卷王”呢?
在 AI 这个“谁更聪明”的世界里,Qwen2.5-Max 毫不客气地站了出来,向各路高手发起挑战。经过一轮实战 PK,它的表现可以用两个字概括:
能打!
模型 PK 赛:Qwen2.5-Max 谁都不怵
官方选取了多个硬核测试,包括:
-
MMLU-Pro
(大学生水平考核,学术硬实力比拼)
-
LiveCodeBench
(编程能力测试,代码实力见真章)
-
-
比完一圈,Qwen2.5-Max
稳超 DeepSeek V3
,在多个关键测试中给出了炸裂表现,尤其在 MMLU-Pro 这类高难度考试中,展现了超强实力!
Qwen2.5-Max位列LiveBench第9,同样斩获非推理模型的
「中国模型冠军」
。该榜单由Yann LeCun发起,被称为「全球首个无法被操纵的LLM基准测试」。
在指令模型对比中,Qwen2.5-Max 直接对上 GPT-4o、Claude-3.5-Sonnet、DeepSeek V3 等业界顶级选手,结果——
DeepSeek V3 已被 Qwen2.5-Max 赶超,而面对其他大佬也毫不逊色,已经站在了“最强之列”!
🚀😎
基座模型:硬实力更能打!
在MMLU、C-Eval、Math等11项主流基座模型测评中,
Qwen2.5-Max都超过了DeepSeek-V3和Llama3.1-405B。
全球开发者都炸锅了!
Qwen2.5-Max一出,全球AI社区直接炸裂,有网友兴奋地表示:
“终于可以跟ChatGPT说再见了!”
更有网友调侃,OpenAI或Anthropic的研究员打开Chatbot Arena榜单时可能的真实反应😂:
“先生,又有一个中国模型砸到脸上了!”
而在国内,很多开发者已经迫不及待地开始实测了。有人惊叹:
“代码能力太猛了,效果嘎嘎好”
还有人表示:
中国大模型过年了,太疯狂了
Qwen2.5-Max体验
如何使用Qwen2.5-Max
Qwen2.5-Max已经全面开放,企业可以在
阿里云百炼
直接调用API,开发者则可以在
Qwen Chat
平台免费体验。
体验地址Qwen Chat👉 https://chat.qwenlm.ai/
如果你是开发者,想让你的应用拥有全球最强的数学和编程能力,那就别犹豫了,赶紧去试试吧!
Qwen2.5-Max实测环节
这次是在QwenChat免费体验测试的Qwen2.5-max,QwenChat最大的亮点,就是它集多项功能于一身!
你可以直接在对话界面 切换不同模式,轻松实现:
而 DeepSeek 目前还不具备这些“超能力”! 废话不多说,直接进入 实测环节!
现在假设地球上有一对双胞胎(双胞胎就表示年龄一样,先出来的称为哥哥),距离地球30光年的地方有一个相对地球静止的星球S,哥哥驾着飞船以0.995c的速度从地球飞向星球S,然后再以同样的速度返回地球,我们的问题就是要分析哥哥回到地球并着陆之后跟弟弟比一比年龄,到底谁大?大多少?
我们先用一个非常复杂的问题测试这款模型的综合能力
Qwen2.5-Max给出了直接复杂计算,涉及到狭义相对论中的时间膨胀效应(Time Dilation),答案是没问题的。
数学
-
代码能力测试1:使用 Artifacts 预览代码
请帮我使用JavaScript实现一个chess game
Qwen2.5-Max 生成 HTML 代码后,可以直接在界面右侧的 Artifacts (工件) 选项卡中 预览并运行游戏!
有点酷的,写代码的效果可见即所得,一直梦想想成为“全站工程师”的我,再也不发愁确实前端技能包了
为三个黄色球在球体内弹跳编写一个脚本。确保正确处理碰撞检测。缓慢旋转球体。确保球留在球体内。使用p5.js它来实现它
将写出来的代码复制到 p5.js Web Editor 中运行即可查看效果,没有bug,直接运行成功!
生成一篇 LinkedIn 文章,主题为“如何利用 AI 提高工作效率”。
生成速度特别快,内容风格和形式都兼顾到位,创作内容也排版成Markdown格式了,方便我们快速使用。