Hugging Face发布SmolVLM-256M与SmolV-20250125174610_黄建同学的专栏文章_微信文章

Hugging Face发布SmolVLM-256M与SmolV-20250125174610

黄建同学 · 微博 · AI · 2025-01-25 17:46

正文

2025-01-25 17:46
本条微博链接

Hugging Face发布SmolVLM-256M与SmolVLM-500M：其中256M是目前全球最小的视觉语言模型（VLM）！

1. SmolVLM-256M
全球最小的视觉语言模型，仅256M参数。
在多模态任务中表现强劲，涵盖图片描述、文档问答和基本视觉推理等任务。

2. SmolVLM-500M
更强性能的升级版本，仍保持轻量化设计。
在DocVQA和MMMU等任务中表现出色，更适合生产环境的直接部署。

3. 轻量化与高效性能
使用更小的SigLIP视觉编码器（93M参数），支持更高分辨率图像处理，提升视觉理解能力。
引入新的标记优化方法，提升训练稳定性并改善模型输出质量。

4. 数据与优化
数据集更新：文档理解占比提高至41%，图像描述占比为14%。
标记优化：采用4096像素/标记（相比之前1820像素/标记），显著提升效率。

选择小模型的好处：
1. 低资源设备：适合在受限设备（如消费级笔记本、浏览器环境）上运行。

2. 高效推理：在处理海量数据时，相比SmolVLM 2B，这些小型模型可大幅降低成本。

3. 灵活部署：轻量化设计使其成为特殊任务的理想选择，如多模态检索、图像问答等。

访问：huggingface.co/blog/smolagents-can-see

#ai创造营# #科技# #chatgpt#

Hugging Face发布SmolVLM-256M与SmolV-20250125174610

正文

请到「今天看啥」查看全文