因为Qwen和DeepSeek都开源的多模态模型,Qwen开源的是Qwen2.5-VL模型专注多模态(图像+视频)理解,而DeepSeek开源的是Janus-Pro模型即可以进行图像理解,也可以进行图片生成。
知乎热榜,Janus-Pro也是挂了一天,但我测了一下图像理解能力,真的不太行,我希望请大家不要无脑吹。
声明:我没有贬低Janus-Pro-7B的意思,也没有测试Janus-Pro-7B的图像生成能力,仅从图像理解来进行评价。
再次强调,当然我对图像生成研究不深,我主要是想看看图像理解到底到了什么程度。
为了有对比,我将Qwen2.5-VL与Janus-Pro-7B进行相同测试,比较结果。
先说结论:
-
与72B模型不同,Qwen2.5-VL-7B在表格解析上效果不理想,应该还是参数量的问题。
-
Janus-Pro-7B特别爱不回答,并且生成结果乱起八糟。
测试代码分别来自官方Github的HF代码,直接测试,Janus-Pro-7B的结果我一度认为我测试的有问题。
先放结果,后放代码,感兴趣可以check一下。
图像理解测试
先来表格识别,3个共三个表格图片,prompt如下:
## Role
你是一位有多年经验的OCR表格识别专家。
## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。
## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 最终输出结果需要是html格式的表格内容。
## Initialization
请仔细思考后,输出html表格结果。
结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B错了,内容都不对。
Qwen2.5-VL-7B结果
Janus-Pro-7B结果
结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B不正面回答,图像已经传了,但是它不理解。
Qwen2.5-VL-7B结果
Janus-Pro-7B结果
结果:Qwen2.5-VL-7B结构错误,Janus-Pro-7B根本不回答。
Qwen2.5-VL-7B结果
Janus-Pro-7B结果
总结,昨天因为
测试Qwen2.5-VL-72B模型
,表格解析都出来,我以为7B也能出来,不过也没出来,只能说明,还是多模态再做表格解析部分,还是有门槛的。光有相对的训练策略还不够,还需要模型足够大。
再来两道数学题,prompt如下:
请解题。
结果:Qwen2.5-VL-7B对了,
,Janus-Pro-7B错了。
Qwen2.5-VL-7B结果
Janus-Pro-7B结果
结果:Qwen2.5-VL-7B对了,C方程为