专栏名称: OpenCV学堂

一个致力于计算机视觉OpenCV原创技术传播的公众号！OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、，计算机视觉前沿技术介绍，技术专家经验分享，人才交流，学习交流。

【效果震撼】Ollama多模态视觉大模型应用

OpenCV学堂 · 公众号 · AI 科技自媒体 · 2025-03-03 22:02

主要观点总结

文章介绍了Ollama工具的安装和使用，包括下载地址、运行模型命令以及API调用等。文章还提到了使用llama3.2-vision多模态大模型进行OCR识别、图像分类与描述、对象计数等功能的体验反馈，并给出了一些相关技术的推荐阅读。

关键观点总结

关键观点1: Ollama工具的安装与使用

提供了Ollama工具的下载地址，介绍了如何运行不同的语言对话模型和视觉大模型，包括命令行使用和SDK API调用。

关键观点2: llama3.2-vision多模态大模型的功能体验

使用llama3.2-vision进行OCR识别、图像分类与描述、对象计数的体验反馈，包括识别准确率和模型效果的评价。

关键观点3: 相关技术的推荐阅读

给出了一些与文章主题相关的技术推荐，如OpenCV4.8+YOLOv8对象检测、ZXING+OpenCV条码检测应用等。

正文

点击上方蓝字关注我们

微信公众号： OpenCV学堂

关注获取更多计算机视觉与深度学习知识

OLLama安装

安装Ollama工具，下载地址如下：

https://github.com/ollama/ollama

下载与运行llama3大语言对话模型

ollama run llama3.2

下载与运行llama-vision3.2多模态视觉大模型

ollama run llama3.2-vision

下载与运行llava多模态视觉大模型

ollama run llava

运行Ollama支持的模型

使用llama-vision3.2 多模态模型的命令行如下：

ollama run llama3.2-vision

命令行使用llama3.2-vision多模态大模型格式如下:

>>>What's in this image? /your_test_image.png

亲测发现不支持bmp格式图像，支持jpg跟png。

使用llama3.2-vision多模态实现OCR识别

亲测证实对英文跟日期数字等信息识别准确率都非常好，就是识别中文容易翻车，各种错误，也许是因为我用的这个模型只有7B的原因。

使用llama3.2-vision多模态实现图像分类与描述

非常准确的给出了图像分类是兔子，而且还给出来一段非常详细的描述英文 :

The rabbit has a distinctive grey and white coat pattern, with large ears that are perked up as if listening to something. Its eyes are dark brown, and its nose is pink. The rabbit appears to be sitting on a tiled floor, possibly in a home or pet store setting.

使用llama3.2-vision多模态实现对象计数