专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【Deepseek R1 原理解析:介绍了 ... ·  昨天  
爱可可-爱生活  ·  这篇论文反直觉地发现并验证了LLM的幻觉在药 ... ·  2 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250124222254 ·  3 天前  
51好读  ›  专栏  ›  黄建同学

Hugging Face发布SmolVLM-256M与SmolV-20250125174610

黄建同学  · 微博  · AI  · 2025-01-25 17:46

正文

2025-01-25 17:46

Hugging Face发布SmolVLM-256M与SmolVLM-500M:其中256M是目前全球最小的视觉语言模型(VLM)!

1. SmolVLM-256M
全球最小的视觉语言模型,仅256M参数。
在多模态任务中表现强劲,涵盖图片描述、文档问答和基本视觉推理等任务。

2. SmolVLM-500M
更强性能的升级版本,仍保持轻量化设计。
在DocVQA和MMMU等任务中表现出色,更适合生产环境的直接部署。

3. 轻量化与高效性能
使用更小的SigLIP视觉编码器(93M参数),支持更高分辨率图像处理,提升视觉理解能力。
引入新的标记优化方法,提升训练稳定性并改善模型输出质量。

4. 数据与优化
数据集更新:文档理解占比提高至41%,图像描述占比为14%。
标记优化:采用4096像素/标记(相比之前1820像素/标记),显著提升效率。

选择小模型的好处:
1. 低资源设备:适合在受限设备(如消费级笔记本、浏览器环境)上运行。

2. 高效推理:在处理海量数据时,相比SmolVLM 2B,这些小型模型可大幅降低成本。

3. 灵活部署:轻量化设计使其成为特殊任务的理想选择,如多模态检索、图像问答等。

访问:huggingface.co/blog/smolagents-can-see

#ai创造营##科技##chatgpt#