Hugging Face发布SmolVLM-256M与SmolVLM-500M:其中256M是目前全球最小的视觉语言模型(VLM)!
1. SmolVLM-256M
全球最小的视觉语言模型,仅256M参数。
在多模态任务中表现强劲,涵盖图片描述、文档问答和基本视觉推理等任务。
2. SmolVLM-500M
更强性能的升级版本,仍保持轻量化设计。
在DocVQA和MMMU等任务中表现出色,更适合生产环境的直接部署。
3. 轻量化与高效性能
使用更小的SigLIP视觉编码器(93M参数),支持更高分辨率图像处理,提升视觉理解能力。
引入新的标记优化方法,提升训练稳定性并改善模型输出质量。
4. 数据与优化
数据集更新:文档理解占比提高至41%,图像描述占比为14%。
标记优化:采用4096像素/标记(相比之前1820像素/标记),显著提升效率。
选择小模型的好处:
1. 低资源设备:适合在受限设备(如消费级笔记本、浏览器环境)上运行。
2. 高效推理:在处理海量数据时,相比SmolVLM 2B,这些小型模型可大幅降低成本。
3. 灵活部署:轻量化设计使其成为特殊任务的理想选择,如多模态检索、图像问答等。
访问:huggingface.co/blog/smolagents-can-see
#ai创造营##科技##chatgpt#
1. SmolVLM-256M
全球最小的视觉语言模型,仅256M参数。
在多模态任务中表现强劲,涵盖图片描述、文档问答和基本视觉推理等任务。
2. SmolVLM-500M
更强性能的升级版本,仍保持轻量化设计。
在DocVQA和MMMU等任务中表现出色,更适合生产环境的直接部署。
3. 轻量化与高效性能
使用更小的SigLIP视觉编码器(93M参数),支持更高分辨率图像处理,提升视觉理解能力。
引入新的标记优化方法,提升训练稳定性并改善模型输出质量。
4. 数据与优化
数据集更新:文档理解占比提高至41%,图像描述占比为14%。
标记优化:采用4096像素/标记(相比之前1820像素/标记),显著提升效率。
选择小模型的好处:
1. 低资源设备:适合在受限设备(如消费级笔记本、浏览器环境)上运行。
2. 高效推理:在处理海量数据时,相比SmolVLM 2B,这些小型模型可大幅降低成本。
3. 灵活部署:轻量化设计使其成为特殊任务的理想选择,如多模态检索、图像问答等。
访问:huggingface.co/blog/smolagents-can-see
#ai创造营##科技##chatgpt#