专栏名称: Founder Park
来自极客公园,专注与科技创业者聊「真问题」。
51好读  ›  专栏  ›  Founder Park

阿里开源Qwen2.5-VL新版本,视觉推理通杀,32B比72B更聪明

Founder Park  · 公众号  · 科技自媒体 互联网短视频  · 2025-03-25 15:05

主要观点总结

本文介绍了Qwen2.5-VL-32B新模型的发布,该模型在回复人类主观偏好、数学推理能力和图像细粒度理解与推理等方面进行了改进。文章提到了新模型的优势,并通过实例展示来说明这些改进。此外,文章还提到了DeepSeek发布V3更新以及创始人Park正在搭建开发者社群的信息。

关键观点总结

关键观点1: Qwen2.5-VL-32B新模型的发布和改进。

介绍了Qwen的新模型发布,包括回复符合人类主观偏好、数学推理能力和图像细粒度理解与推理等方面的改进。

关键观点2: Qwen2.5-VL-32B模型的优势和实例展示。

通过性能测试结果和官方Demo展示了Qwen2.5-VL-32B模型的优势。

关键观点3: DeepSeek的V3更新。

提到了DeepSeek发布了V3更新,包括代码和审美的质的提升,并附上了5大维度测评。

关键观点4: 创始人Park正在搭建开发者社群。

介绍Founder Park正在搭建开发者社群,邀请开发者、创业者们加入,并提供了社群中可能获得的资源和机会。


正文

请到「今天看啥」查看全文


DeepSeek-V3 发了新版本,Qwen 也同时发了新模型
择日不如撞日,Qwen2.5-VL-32B-Instruct 就这么来了。
截屏2025-03-25 09.36.25.png
相比此前的 Qwen2.5-VL 系列模型,32B 模型有如下改进:
  • 回复更符合人类主观偏好 :调整了输出风格,使回答更加详细、格式更规范,并更符合人类偏好。

  • 数学推理能力 :复杂数学问题求解的准确性显著提升。

  • 图像细粒度理解与推理 :在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

对于所有用户来说,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B,即可体验:https://chat.qwen.ai/
截屏2025-03-25 10.02.24.png
32B 版本的出现,解决了「72B 对 VLM 来说太大」和「7B 不够强大」的问题。如这位网友所说,32B 可能是多模态 AI Agent 部署实践中的最佳选择:
截屏2025-03-25 09.56.44.png
不过团队也介绍了,Qwen2.5-VL-32B 在强化学习框架下优化了主观体验和数学推理能力,但主要还是基于「快速思考」模式。
下一步,通义千问团队将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。


Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
图片
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。



01

32 B 可以比 72B 更聪明

先来看看性能测试结果。
与近期的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 等模型相比,Qwen2.5-VL-32B-Instruct 展现出了明显的优势,甚至超越了更大规模的 72B 模型。
image.png
如上图所示,在 MMMU、MMMU-Pro 和 MathVista 等多模态任务中,Qwen2.5-VL-32B-Instruct 均表现突出。
特别是在注重主观用户体验评估的 MM-MT-Bench 基准测试中,32B 模型相较于前代 Qwen2-VL-72B-Instruct 实现了显著进步。
视觉能力的进步,已经让用户们感受到了震撼:
截屏2025-03-25 10.11.30.png
除了在视觉能力上优秀,Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。
image.png

02

实例展示

或许很多人还好奇,32B 版本的升级怎么体现呢?

关于「回复更符合人类主观偏好」、「数学推理能力」、「图像细粒度理解与推理」这三个维度,我们通过几个官方 Demo 来体会一番。
第一个问题,是关于「细粒度图像理解与推理」:我开着一辆卡车在这条路上行驶,现在是 12 点,我能在 13 点之前到达 110 公里外的地方吗?
截屏2025-03-25 10.23.33.png
显然,从人类的角度去快速判断,在限速 100 的前提下,卡车无法在 1 小时内抵达 110 公里之外的地方。
Qwen2.5-VL-32B-Instruct 给出的答案也是「否」,但分析过程更加严谨,叙述方式也是娓娓道来,我们可以做个参考:
截屏2025-03-25 10.24.19.png
第二个问题是「数学推理」:如图,直线 AB、CD 交于点 O,OD 平分∠AOE,∠BOC=50.0,则∠EOB=()
截屏2025-03-25 10.28.44.png
答案是「80」:
截屏2025-03-25 10.32.48.png
截屏2025-03-25 10.32.59.png
第三个题目的数学推理显然更上难度了:
截屏2025-03-25 10.35.35.png
模型给出的答案特别清晰,解题思路拆解得很详细:
截屏2025-03-25 10.36.14.png
截屏2025-03-25 10.36.33.png
截屏2025-03-25 10.36.42.png
在下面这个图片内容识别任务中,模型的分析过程也非常细致严谨:
截屏2025-03-25 10.18.56.png
截屏2025-03-25 10.19.14.png
截屏2025-03-25 10.19.31.png
关于 Qwen2.5-VL-32B-Instruct 的更多信息,可参考官方博客。
博客链接:https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

图片

更多阅读
DeepSeek发布V3更新:代码和审美有了质的提升,附5大维度测评
Mercor:20亿估值的AI招聘产品,21 岁的创始人、全员996,11 个月实现1亿美元收入
Ben Thompson对谈Sam Altman:作为一个10亿用户的消费者公司,OpenAI的过去和未来
跟硅谷创业者聊 Agent:今年创业做 Agent,技术卡点在哪里?

转载原创文章请添加微信:founderparker







请到「今天看啥」查看全文