真卷啊,通义也没闲着,开源了多模态模型 Qwen2.5 VL
#AI创造营#
#ai#
这次的升级挺大的在多模态上可以跟 Gemini 掰手腕了
- 包含 3B、7B 和 72B 在内的 3 个模型尺寸
- 直接作为一个视觉 Agent,可以推理操作电脑界面
- Qwen2.5-VL 能够理解超过 1 小时的视频
- 支持通过精准定位相关视频片段来捕捉事件的新能力
- 通过精准定位相关视频片段来捕捉事件的新能力
- 对于发票、表单、表格等数据,支持内容的结构化输出
博客:qwenlm.github.io/zh/blog/qwen2.5-vl/
这次的升级挺大的在多模态上可以跟 Gemini 掰手腕了
- 包含 3B、7B 和 72B 在内的 3 个模型尺寸
- 直接作为一个视觉 Agent,可以推理操作电脑界面
- Qwen2.5-VL 能够理解超过 1 小时的视频
- 支持通过精准定位相关视频片段来捕捉事件的新能力
- 通过精准定位相关视频片段来捕捉事件的新能力
- 对于发票、表单、表格等数据,支持内容的结构化输出
博客:qwenlm.github.io/zh/blog/qwen2.5-vl/