专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

通义两大模型，正式开源！

阿里研究院 · 公众号 · 电商 · 2025-01-28 11:50

正文

Qwen2.5-VL

AI视觉智能体能力大幅增强

本次开源的 Qwen2.5-VL 模型，我们推出 3B、7B 和 72B 三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容，突破性地支持超1小时的视频理解，无需微调就可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

万物识别

Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。

Prompt：What are these attractions? Please give their names in Chinese and English.

Qwen2.5-VL：

These attractions are:

1.Top left: The Great Pyramids of Giza (埃及的吉萨大金字塔)

2.Top right: The Great Wall of China (中国的长城)

3.Bottom left: The Statue of Liberty (美国的自由女神像)

4.Bottom right: The Terracotta Army (中国的秦始皇兵马俑)

精准的视觉定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位，可以实现层级化定位和规范的 JSON 格式输出。增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。

Prompt：Detect all motorcyclists in the image and return their locations in the form of coordinates. The format of output should be like {“bbox_2d”: [x1, y1, x2, y2], “label”: “motorcyclist”, “sub_label”: “wearing helmat” # or “not wearing helmat”}.

全面的文字识别和理解

Qwen2.5-VL 将 OCR 识别能力提升至一个新的水平，增强了多场景、多语言和多方向的文本识别和文本定位能力。同时，在信息抽取能力上进行大幅度增强，以满足日益增长的资质审核、金融商务等数字化、智能化需求。

Prompt：Read all texts in the image, output in lines.

Qwen2.5-VL：

平安喜樂八方來財順風順水順財神暴富大吉諸事皆順福時來運轉發財如意有錢有勢有前程好運來

Qwen特色文档解析

在 Qwen2.5-VL 中，我们在设计了一种更全面的文档解析格式，称为 QwenVL HTML 格式，它既可以将文档中的文本精准地识别出来，也能够提取文档元素（如图片、表格等）的位置信息，从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据，QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析，比如杂志、论文、网页、甚至手机截屏等等。

增强的视频理解

Qwen2.5-VL 的视频理解能力经过全面升级，在时间处理上，我们引入了动态帧率（FPS）训练和绝对时间编码技术。这样一来，模型不仅能够支持小时级别的超长视频理解，还具备秒级的事件定位能力。它不仅能够准确地理解小时级别的长视频内容，还可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中蕴藏的关键信息。

能够操作电脑和手机的视觉Agent

通过利用内在的感知、解析和推理能力，Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务，为创建真正的视觉代理提供了有价值的参考点。

Prompt：

Please help me book a one-way ticket in the bookings app. The starting point is Chongqing Jiangbei Airport and the ending point is Beijing Capital Airport on January 28th.

Qwen2.5-VL 不同尺寸及量化版本已在魔搭社区ModelScope、HuggingFace等平台开源，大家也可在 Qwen Chat 上直接体验最新模型，或通过阿里云百炼调用模型API。

Huggingface：

https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

Modelscope：

https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

Qwen Chat：https://chat.qwenlm.ai

Qwen2.5-1M

百万Tokens处理速度提升近7倍

本次开源的 Qwen2.5-1M 大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源 Qwen 模型的上下文扩展到 1M 长度。

1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》

长文本处理能力

在上下文长度为 100 万 Tokens 的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息，仅有 7B 模型出现了少量错误。

长文本推理速度提升

对于长上下文的语言模型，推理速度对用户体验至关重要。为了加速预填充阶段，我们引入了基于 MInference 的稀疏注意力优化。并在分块预填充、集成长度外推方案和稀疏性优化等多环节创新改进。基于这些改进的推理框架有效地加快了模型推理速度，在不同模型大小和 GPU 设备上，处理 1M 长度输入序列的预填充速度提升了 3.2 倍到 6.7 倍。

你可以在 Huggingface 和 Modelscope 上的在线演示体验 Qwen2.5-1M 模型。

Huggingface：

https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo

Modelscope：

https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

推荐阅读

刚刚，通义万相模型能力重磅升级！

翻译、调酒、下象棋？AI眼镜成了年货“新宠”

-END-

版块介绍 — 产业之声

紧跟产业发展脉搏，我们汇集行业领袖与企业的真实声音，在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面，剖析成功案例背后的逻辑与挑战，并提供基于产业深度洞察的策略建议。同时，我们依托于阿里巴巴集团在人工智能领域的全面布局，分享阿里的AI产业生态和应用的实践落地，探讨技术如何重塑产业格局并推动社会经济的转型升级。

推荐阅读

Reading

1、被“套壳”割韭菜，是谁在制造AI焦虑？

2、观察｜“兼济天下”与“产业繁荣”：从中法联合声明看中国的“AI力”

3、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研：生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码，未来20%代码由通义灵码编写

7、安筱鹏：中国没有“百模大战”，也没有“十模大战”

8、达摩院AI助力农业育种，遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重，Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI，雅戈尔的“智能+”实践