专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

实测 | 比较Qwen2.5-VL与Janus-Pro-7B在视觉理解上效果

AI算法与图像处理 · 公众号 · · 2025-02-06 20:20

正文

因为Qwen和DeepSeek都开源的多模态模型，Qwen开源的是Qwen2.5-VL模型专注多模态（图像+视频）理解，而DeepSeek开源的是Janus-Pro模型即可以进行图像理解，也可以进行图片生成。

知乎热榜，Janus-Pro也是挂了一天，但我测了一下图像理解能力，真的不太行，我希望请大家不要无脑吹。

声明：我没有贬低Janus-Pro-7B的意思，也没有测试Janus-Pro-7B的图像生成能力，仅从图像理解来进行评价。

再次强调，当然我对图像生成研究不深，我主要是想看看图像理解到底到了什么程度。

为了有对比，我将Qwen2.5-VL与Janus-Pro-7B进行相同测试，比较结果。

先说结论：

与72B模型不同，Qwen2.5-VL-7B在表格解析上效果不理想，应该还是参数量的问题。
Janus-Pro-7B特别爱不回答，并且生成结果乱起八糟。

测试代码分别来自官方Github的HF代码，直接测试，Janus-Pro-7B的结果我一度认为我测试的有问题。

先放结果，后放代码，感兴趣可以check一下。

图像理解测试

先来表格识别，3个共三个表格图片，prompt如下：

## Role
你是一位有多年经验的OCR表格识别专家。
 
## Goals
需要通过给定的图片，识别表格里的内容，并以html表格结果格式输出结果。
 
## Constrains
- 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入html表格结构中；
- 图片中的表格单元格中可能存在一些占位符需要识别出来，例如"-"、"—"、"/"等；
- 输出表格结构一定遵循图片中的结构，表格结构完全一致；
- 特别注意图片中存在合并单元格的情况，结构不要出错；
- 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；
- 最终输出结果需要是html格式的表格内容。

## Initialization
请仔细思考后，输出html表格结果。