专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
51好读  ›  专栏  ›  AI算法与图像处理

实测 | 比较Qwen2.5-VL与Janus-Pro-7B在视觉理解上效果

AI算法与图像处理  · 公众号  ·  · 2025-02-06 20:20

正文

因为Qwen和DeepSeek都开源的多模态模型,Qwen开源的是Qwen2.5-VL模型专注多模态(图像+视频)理解,而DeepSeek开源的是Janus-Pro模型即可以进行图像理解,也可以进行图片生成。

知乎热榜,Janus-Pro也是挂了一天,但我测了一下图像理解能力,真的不太行,我希望请大家不要无脑吹。

声明:我没有贬低Janus-Pro-7B的意思,也没有测试Janus-Pro-7B的图像生成能力,仅从图像理解来进行评价。

再次强调,当然我对图像生成研究不深,我主要是想看看图像理解到底到了什么程度。

为了有对比,我将Qwen2.5-VL与Janus-Pro-7B进行相同测试,比较结果。

先说结论:

  • 与72B模型不同,Qwen2.5-VL-7B在表格解析上效果不理想,应该还是参数量的问题。
  • Janus-Pro-7B特别爱不回答,并且生成结果乱起八糟。

测试代码分别来自官方Github的HF代码,直接测试,Janus-Pro-7B的结果我一度认为我测试的有问题。

先放结果,后放代码,感兴趣可以check一下。

图像理解测试

先来表格识别,3个共三个表格图片,prompt如下:

## Role
你是一位有多年经验的OCR表格识别专家。
 
## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。
 
## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-""—""/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 最终输出结果需要是html格式的表格内容。

## Initialization
请仔细思考后,输出html表格结果。
  • 测试1:

结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B错了,内容都不对。

Qwen2.5-VL-7B结果
Janus-Pro-7B结果
  • 测试2:

结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B不正面回答,图像已经传了,但是它不理解。

Qwen2.5-VL-7B结果
Janus-Pro-7B结果
  • 测试3:

结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B根本不回答。

Qwen2.5-VL-7B结果
Janus-Pro-7B结果

总结,昨天因为 测试Qwen2.5-VL-72B模型 ,表格解析都出来,我以为7B也能出来,不过也没出来,只能说明,还是多模态再做表格解析部分,还是有门槛的。光有相对的训练策略还不够,还需要模型足够大。

再来两道数学题,prompt如下:

请解题。
  • 测试4:

结果:Qwen2.5-VL-7B对了, ,Janus-Pro-7B错了。

Qwen2.5-VL-7B结果
Janus-Pro-7B结果
  • 测试5:

结果:Qwen2.5-VL-7B对了,C方程为







请到「今天看啥」查看全文