专栏名称: OpenCV学堂
一个致力于计算机视觉OpenCV原创技术传播的公众号!OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、,计算机视觉前沿技术介绍,技术专家经验分享,人才交流,学习交流。
目录
相关文章推荐
AI产品榜  ·  第1名豆包险胜,DeepSeek繁忙紧追,只 ... ·  17 小时前  
人工智能学家  ·  DeepSeek“理论利润率”545%,又要 ... ·  昨天  
爱可可-爱生活  ·  低秩偏差、权重衰减与模型融合 查看图片 ... ·  昨天  
中汇信达深圳税务师事务所  ·  深圳12366每周热点:先进制造业加计抵减、 ... ·  2 天前  
中汇信达深圳税务师事务所  ·  深圳12366每周热点:先进制造业加计抵减、 ... ·  2 天前  
警民直通车上海  ·  年轻有为?投资有道?还转?骗你来了! ·  2 天前  
警民直通车上海  ·  年轻有为?投资有道?还转?骗你来了! ·  2 天前  
51好读  ›  专栏  ›  OpenCV学堂

【效果震撼】Ollama多模态视觉大模型应用

OpenCV学堂  · 公众号  · AI 科技自媒体  · 2025-03-03 22:02

主要观点总结

文章介绍了Ollama工具的安装和使用,包括下载地址、运行模型命令以及API调用等。文章还提到了使用llama3.2-vision多模态大模型进行OCR识别、图像分类与描述、对象计数等功能的体验反馈,并给出了一些相关技术的推荐阅读。

关键观点总结

关键观点1: Ollama工具的安装与使用

提供了Ollama工具的下载地址,介绍了如何运行不同的语言对话模型和视觉大模型,包括命令行使用和SDK API调用。

关键观点2: llama3.2-vision多模态大模型的功能体验

使用llama3.2-vision进行OCR识别、图像分类与描述、对象计数的体验反馈,包括识别准确率和模型效果的评价。

关键观点3: 相关技术的推荐阅读

给出了一些与文章主题相关的技术推荐,如OpenCV4.8+YOLOv8对象检测、ZXING+OpenCV条码检测应用等。


正文

图片 点击上方 蓝字 关注我们

微信公众号: OpenCV学堂

关注获取更多计算机视觉与深度学习知识

OLLama安装

安装Ollama工具,下载地址如下:

https://github.com/ollama/ollama

下载与运行llama3大语言对话模型

ollama run llama3.2

下载与运行llama-vision3.2多模态视觉大模型

ollama run llama3.2-vision

下载与运行llava多模态视觉大模型

ollama run llava

运行Ollama支持的模型

使用llama-vision3.2 多模态模型的命令行如下:

ollama run llama3.2-vision

命令行使用llama3.2-vision多模态大模型格式如下:

>>>What's in this image? /your_test_image.png

亲测发现不支持bmp格式图像,支持jpg跟png。

使用llama3.2-vision多模态实现OCR识别



亲测证实对英文跟日期数字等信息识别准确率都非常好,就是识别中文容易翻车,各种错误,也许是因为我用的这个模型只有7B的原因。


使用llama3.2-vision多模态实现图像分类与描述


非常准确的给出了图像分类是兔子,而且还给出来一段非常详细的描述英文 :


The rabbit has a distinctive grey and white coat pattern, with large ears that are perked up as if listening to something. Its eyes are dark brown, and its nose is pink. The rabbit appears to be sitting on a tiled floor, possibly in a home or pet store setting.


使用llama3.2-vision多模态实现对象计数


我只能说多模态大模型太好用了。

SDK API调用

启动Ollama Server以后,运行客户端API SDK 说明如下:


Python代码实现调用以后输出



入门深度学习与多模态
Pytorch是基础第一步

原价: 398

折扣: 2 99



推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

总结 | OpenCV4 Mat操作全接触

三行代码实现 TensorRT8.6 C++ 深度学习模型部署







请到「今天看啥」查看全文