主要观点总结
文章介绍了Ollama工具的安装和使用,包括下载地址、运行模型命令以及API调用等。文章还提到了使用llama3.2-vision多模态大模型进行OCR识别、图像分类与描述、对象计数等功能的体验反馈,并给出了一些相关技术的推荐阅读。
关键观点总结
关键观点1: Ollama工具的安装与使用
提供了Ollama工具的下载地址,介绍了如何运行不同的语言对话模型和视觉大模型,包括命令行使用和SDK API调用。
关键观点2: llama3.2-vision多模态大模型的功能体验
使用llama3.2-vision进行OCR识别、图像分类与描述、对象计数的体验反馈,包括识别准确率和模型效果的评价。
关键观点3: 相关技术的推荐阅读
给出了一些与文章主题相关的技术推荐,如OpenCV4.8+YOLOv8对象检测、ZXING+OpenCV条码检测应用等。
正文
点击上方
蓝字
关注我们
微信公众号:
OpenCV学堂
关注获取更多计算机视觉与深度学习知识
安装Ollama工具,下载地址如下:
下载与运行llama3大语言对话模型
下载与运行llama-vision3.2多模态视觉大模型
ollama run llama3.2-vision
下载与运行llava多模态视觉大模型
使用llama-vision3.2 多模态模型的命令行如下:
ollama run llama3.2-vision
命令行使用llama3.2-vision多模态大模型格式如下:
>>>What's in this image? /your_test_image.png
亲测发现不支持bmp格式图像,支持jpg跟png。
使用llama3.2-vision多模态实现OCR识别
亲测证实对英文跟日期数字等信息识别准确率都非常好,就是识别中文容易翻车,各种错误,也许是因为我用的这个模型只有7B的原因。
使用llama3.2-vision多模态实现图像分类与描述
非常准确的给出了图像分类是兔子,而且还给出来一段非常详细的描述英文
:
The rabbit has a distinctive grey and white coat pattern, with large ears that are perked up as if listening to something. Its eyes are dark brown, and its nose is pink. The rabbit appears to be sitting on a tiled floor, possibly in a home or pet store setting.
使用llama3.2-vision多模态实现对象计数
启动Ollama Server以后,运行客户端API SDK 说明如下:
Python代码实现调用以后输出